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在 这 一 章 中 ， 作 者 会 带 你 在 不 同 
。 第 3 章 Cassandra 的 数据 模 


绍 了 Cassandra 的 数据 模型 以 了 解 Cassandra 中 的 列 、 超 级 列 、 行 都 是 什么 。 我 们 特 
的 关系 型 数据 库 之 间 的 差别 。 


召 了 Cassandra 和 传统 
。 第 4 章 应 用 实例 


1 章 Cassandra 概 况 


Cassandra 


型 


这 一 


Cassandra 的 数据 模型 之 上 。 
。 第 5 章 Cassandra 的 架构 


讨论 了 它 与 众 不 同 的 特质 、 


章 给 出 了 一 个 完整 可 用 的 例子 ， 将 一 个 大 家 熟悉 的 领域 中 的 应 用 


优势 和 


前 的 用 


平台 上 安装 Cassandra ° 


实例 从 关系 模型 迁移 到 了 


这 一 章 会 帮 你 理解 在 Cassandra 进 行 读 写 操作 时 ， 到 底 都 发 生 了 什么 ， 这 个 数据 库 是 如 何 做 到 它 
的 那些 特点 的 ， 比 如 持久 性 和 高 可 用 性 。 我 们 深入 到 底层 来 了 解 一 些 更 复杂 的 内 部 工作 机 制 ， 
比如 gossip 协 议 、 提 示 移 交 、 读 时 修复 、Merkle 树 等 。 

。 第 6 章 配置 Cassandra 
这 一 章 介绍 了 如 何 设置 分 区 器 、 副 本 放置 策略 和 snitch。 我 们 配置 了 一 个 集群 ， 了 解 不 同 配置 选 
项 对 于 集群 的 影响 。 

。 第 7 章 读 写 数据 
这 是 我 们 一 直 期 待 的 时 刻 。 这 里 介绍 了 Cassandra 模 型 在 查询 和 更 新 数据 时 与 传统 关系 型 数据 库 
的 不 同 ， 然 后 还 使 用 API 进 行 了 操作 。 

。 第 8 章 客户 端 
第 三 方 开发 者 为 Cassandra 开 发 了 很 多 不 同 的 客户 端 ， 文 持 多 种 语言 ， 包 括 Java、C#、Ruby、 
Python 等 ， 对 Cassandra 的 底层 API 进 行 了 再 次 抽象 。 我 们 会 帮 你 从 整体 上 了 解 这 些 客户 端 ， 这 样 
你 就 可 以 选择 一 个 适合 自己 的 了 。 

。 第 9 章 监控 
一 旦 集群 已 经 配置 好 并 开始 运行 了 ， 就 需要 监控 它 的 利用 率 、 内 存 占 用 和 线程 状况 ， 了 解 它 的 
Ru Cassandra 内 建 了 丰富 的 Java 管 理 扩展 (MX) 接口 ， 我 们 可 以 监控 所 有 这 些 信息 ， 

。 第 10 章 维护 
通过 服务 器 自 带 的 一 些 工具 ， 可 以 更 简单 地 进行 很 多 Cassandra 集 群 的 日 常 维护 工作 。 我 们 会 看 
到 如 何 退 服 一 个 节点 ， 对 集群 进行 负载 均衡 ， 获 取 统 计 信息 以 及 进行 其 他 日 常 维护 操作 任务 。 


。 第 11 章 性 能 
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置 、 数 据 存储 、 硬 件 选择 、 缓 存 和 缓冲 区 大 小 等 ， 


的 一 个 最 值得 一 提 的 特性 就 是 它 的 速度 


。 第 12 章 集成 Hadoop 


非常 地 快 。 但 有 很 多 东西 ， 包括 内 存 设 
都 需要 进一步 调 优 ， 从 中 获得 更 高 的 性 能 。 


这 一 章 由 Jeremy Hanna 写 作 。 在 这 一 章 我 们 会 把 Cassandra 放 到 一 个 更 大 的 育 景 1， 学 习 如 何 将 
它 与 Hadoop 集 成 在 一 起 ，Hadoop 是 Google 的 Map/Reduce 算 法 目前 一 个 十 分 流行 的 实现 。 


。 Bro 


很 多 新 的 数据 库 都 在 今日 海量 数据 的 需求 之 下 应 运 


的 支持 更 新 的 一 些 趋势 如 语义 网 络 。 这 里 我 们 
景 之 中 ， 分 别 了 解 面向 文档 的 数据 库 、 分 布 式 哈 
提供 的 东西 。 

。 词汇 表 


运 而 生 了 ， 有 的 从 “无 schema” 模 型 中 获 益 ， 


把 Cassandra 放 到 各 种 流行 的 非 关 系 型 数据 库 背 
希 表 、 图 数据 库 等 ， 来 更 好 地 理解 Cassandra 所 
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理解 一 些 确实 很 新 的 东西 是 相当 困难 的 ，Cassandra 中 有 些 名 词 对 于 关系 型 应 用 的 开发 者 和 DBA 
来 说 可 能 非常 陌生 ， 我 编写 了 一 个 词汇 表 ， 来 方 


云 ， 可 以 翻 到 词汇 表 来 了 解 诸如 Merkle 树 、 向 量 时 钟 、 提 示 移 交 、 读 时 修复 和 其 他 生 个 的 名 


词 。 


“Aè 本 书 针对 Cassandra 0.6 和 0.7 写 成 。 项 目 组 正在 努力 
版 本 会 不 断 释 出 在 可 能 的 地 方 ， 我 会 尽量 解释 版 本 间 的 不 同 ， 不 过 你 在 阅读 时 可 能 已 经 用 


上 了 一 个 更 新 的 版 本 ， 有 些 实现 因此 会 有 所 不 
更 多 信息 


如 果 你 需要 了 解 关 于 Cassandra 的 更 多 信息 ， 获 得 


同 。 


http://www.cassandraguide.com ° 
在 Twitter 上 关注 我 (@ebenhewitt) 也 是 个 好 主意 。 
格式 约定 
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于 标记 新 名 词 。 


。 等 宽 字 体 
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于 程序 代码 ， 在 段落 中 用 于 表示 程序 的 组 成 部 分 


语句 、 关 键 字 。 


命令 或 是 其 他 应 该 由 用 户 输入 的 内 容 。 
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最 近 的 更 新 ， 可 以 访问 本 书 网 站 : 


， 如 变量 或 函数 名 、 数 据 库 、 数 据 类 型 
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TES 这 个 图 标 表示 一 个 警告 或 警示 。 
使 用 示例 代码 


本 书 用 于 帮助 你 完成 工作 。 通 常 ， 你 可 以 在 程序 或 文档 中 使 用 本 书 提供 的 代码 。 除 非 你 在 重新 
发 布 我 们 的 大 量 代码 ， 否 则 不 需要 联系 我 们 来 获得 许可 。 比 如 ， 在 程序 中 使 用 本 书 代码 的 一 些 
片段 是 无 需 我 们 许可 的 。 但 是 出 售 或 再 分 发 0'Reilly 的 图 书 示例 光盘 显然 是 需要 授权 的 。 引 用 本 
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如 果 你 认为 对 示例 代码 的 使 用 需要 授权 ， 请 通过 这 个 邮箱 联系 我 们 permissions@oreilly.com ° 
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第 1 章 ”Cassandra 概 况 


如 果 一 个 概念 一 开始 不 是 荒诞 不 弱 的 话 ， 那 它 也 没什么 前 途 。 


向 编写 出 这 个 优美 


而 强大 的 数据 库 的 开发 者 们 致 


给 我 提示 ， 


确保 我 的 写作 时 间 ， 没 有 他 ， 


可 尔 伯 特 ' 爱 因 斯 坦 
欢迎 阅读 《Cassandra 权 威 指南 》。 本 书 的 目标 是 帮助 开发 者 和 数据 库 管理 员 们 理解 这 种 重要 的 
新 型 数据 库 ， 探 索 它 与 传统 的 关系 型 数据 库 系 统 有 何 异 同 ， 并 帮助 你 在 自己 的 系统 中 使 用 


Cassandra ° 


1.1 关系 型 数据 库 有 什么 问题 
如 果 当 初 我 问 人 们 到 底 想 要 什么 的 话 ， 他 们 会 说 想 要 快 些 的 马 。 


一 一 亨利 :福特 


人 种 数据 模型 ， 它 由 一 个 拥有 数 千 名 雇员 的 大 公司 里 的 一 个 小 团队 发 明 。 这 个 模型 可 
以 通过 TCP/IP 访 问 ， 并 且 可 以 使 用 包括 Java 和 Web Service 在 内 的 多 种 语言 访问 。 在 被 广泛 采纳 
之 前 ， 这 个 模型 起 初 若非 最 顶尖 的 计算 机 科学 家 都 很 难 理解 ， 最 终 因 为 用 的 人 越 来 越 多 ， 才 被 
大 家 认识 。 要 使 用 这 种 模型 构建 出 数据 库 ， 就 必须 学 习 许 多 新 术语 ， 换 一 种 方式 考虑 数据 存 
储 。 随 大 相关 的 R AT D, 很 多 公司 和 政府 部 门 开 始 广泛 地 使 用 它 ， 因 为 它 非常 快 
自 一 秒 钟 内 执行 上 于 次 操作 。 这 种 模型 产生 了 让 人 难以 置信 的 收益 。 


然后 ， 又 一 种 新 的 模型 出 现 了 。 


这 个 新 模型 是 一 种 可 怕 的 异端 ， 主 要 有 两 点 原因 。 首 先 ， 
模型 完全 不 同 ， E e 这 很 可 怕 ， 因 为 全 新 且 完 全 不 同 的 东西 通常 难以 理解 。 

而 更 进 了 人 们 的 看 法 ， 而 这 些 看 法 3 = 要 来 自 人 们 已 有 的 工作 环境 和 习 得 
的 技术 。 其 次 ， 许 是 更 重要 的 代办， 新 模型 所 面临 的 阻碍 更 多 来 自 商业 考虑 ， 它 威胁 到 了 在 
旧 模 型 上 的 大 量 投资 ， 这 些 投资 正在 带 来 大 量 收入 。 在 这 个 时 候 改变 似乎 是 可 笑 的 ， 也 是 不 可 


[5i 
N 
号 
ni 
EE 
TH 
X 
号 
E 


当然 ， 我 说 的 是 1966 年 由 IBM 发 明 的 信息 管理 系统 (IMS) 分 层 数据 库 。 


IMS 是 为 CLE : 登 月 火箭 而 设计 的 。 它 的 架构 师 是 Vern Watts， 他 的 整个 职业 生涯 都 和 IMS 
联系 在 一 起 。 很 多 读者 都 知道 TBM 的 DB2 数 据 库 。 而 IBM 广 为 人 知 的 DB2 数 据 库 的 名 字 就 沿袭 自 
官 的 前 身 DB1，DB1 是 围绕 着 IMS 的 数据 模型 构建 的 。 IMS T 19684: Uff, 之 后 在 用 户 信息 控制 
系统 (CICS) 和 其 他 应 用 中 取得 成 功 。 至 今 IMS 仍 被 很 多 应 用 使 用 着 


但 是 ， 在 IMS 发 明之 后 的 几 年 里 就 出 现 了 一 个 革新 的 模型 ， 这 个 破坏 性 的 、 带 来 威胁 的 模型 就 
是 关系 型 数据 库 。 


同样 来 自 IBM 的 Edgar F. Codd 博 士 在 他 1970 年 发 表 的 论文 《一 种 用 于 大 规模 共享 数据 存储 系统 的 
关系 型 数据 模型 》 中 ， 阐 述 了 他 在 IBM 圣 何 塞 实验 室 的 工作 中 提出 的 关系 数据 模型 理论 。 这 篇 
目前 仍然 可 以 在 http://www.seas.upenn.edu/~zives/03f/cis550/codd.pdf 访问 的 论文 ， 成 为 了 后 来 的 
关系 型 数据 管理 系统 的 英 基 性 作品 。 


Codd 的 工作 与 IMS 的 层次 化 结构 完全 对 立 。IMS 的 用 户 要 理解 并 使 用 关系 型 数据 库 ， 就 需要 学 
习 很 多 听 起 来 十 分 怪异 的 新 名 词 。 不 过 ， 关 系 型 模型 与 它 的 前 身 相 比 更 具 优 势 ， 部 分 因为 巨人 
平 总 是 站 在 其 他 巨人 的 肩膀 上 。 


关系 型 数据 库 这 个 概念 和 它 的 应 用 已 经 演化 了 40 多 年 了 ， 毫 无 疑问 ， EERE SE Eit 
功 的 一 个 。 它 既 可 以 在 个 人 小 公司 里 通过 微软 Access 数 据 库 来 使 用 ， 也 可 以 在 大 型 跨国 公司 的 
上 百 台 经 过 调 优 的 服务 器 上 使 用 ， 构 成 存储 数 TB 数 据 的 数据 仓库 。 关系 数据 模型 存储 了 账单 、 

户 记录 、 产 品目 录 、 账 户 明细 、 用 户 鉴 权 信息 等 ， 可 以 说 关系 型 数据 库 里 差不多 存储 了 整个 


ES 


al 
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世界 。 宫 无 疑问 ， 无 论 以 现代 的 技术 还 是 商业 视角 看 ， 关 系 型 数据 库 都 扮演 着 关键 角色 ， 而 
多 年 后 它 也 会 人 种 形式 一 直 伴随 我 们 存在 ，IMS 也 是 同样 。 关 系 模型 虽然 是 IMS 的 一 种 替 
尺 模 型 ， 两 者 都 各 得 其 所 。 


所 以 ， 要 问 关系 型 数据 库 有 什么 问题 ， 一 言 以 菩 之 ， 束 是 “没有 问题 ”。 


不 过 ， 实 际 上 我 还 想 请 你 考虑 一 个 长 一 点 的 答案 。 这 个 答案 需要 从 长 计 议 ， 每 个 偶然 诞生 的 概 
念 都 在 点 滴 改 变 着 世界 ， 孕 育 着 某 种 革命 。 而 这 一 次 次 的 革命 不 过 是 历史 的 重演 里 了。 从 

IMS、RDBMS 到 NoSQL ， 一 如 从 马 到 汽车 再 到 飞机 ， 每 一 个 都 建立 在 前 一 个 的 基础 之 上 ， 解 决 
前 一 个 存在 的 某 些 问题 ， 每 个 都 有 所 长 ， 亦 有 所 短 。 他 们 彼此 共存 ， 直 到 如 今 。 


那么 就 来 看 看 为 什么 现在 我 们 要 考虑 关系 型 数据 库 的 蔡 代 产品 ， 正 如 四 十 年 前 Codd 自 己 面 对 信 
REHAS (IMS) 的 思考 一 样 一 一 或 许 IMS 不 是 唯一 适合 用 于 组 织 信息 、 处 理 数据 的 方法 ， 可 
能 正 是 因为 某 些 问题 使 得 他 必须 要 考虑 一 种 IMS 的 替代 品 。 


基于 关系 型 数据 库 的 应 用 取得 成 功 ， 访 问 量 大 幅 增加 的 时 候 ， 我 们 就 会 遇 到 可 扩展 性 问题 。 
有 具有 最 基本 功能 的 关系 型 数据 库 都 会 支持 join 操作 ， 个 过 join 可 能 会 很 慢 。 昌 于 数据 库 通常 
S EUEESER HI 致 性 ， 而 事务 需要 锁 住 数据 库 的 一 部 分 使 之 不 能 被 其 他 用 户 访问 。 因 为 锁 

ETE -数据 的 用 户 会 被 放 入 队列 ， 等 待 获得 读 写 权限 ， 这 在 高 负载 的 情况 下 可 外 
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通常 ， 我 们 会 用 下 面 的 一 条 或 几 条 方法 来 解决 这 些 问题 ， 很 多 时 候 是 下 面 这 个 顺序 。 
。 提 升 硬 件 能 力 来 解决 问题 ， 如 增加 内 存 、 用 更 快 的 处 理 器 以 及 升级 硬盘 。 这 种 方法 称 为 垂 
直 扩展 ， 可 以 解 一 时 之 忧 。 


。 当 问题 再 度 出 现时 ， 解 决 方法 很 类 似 : 既然 一 台 机 器 已 经 不 堪 重 负 了 ， 我 们 就 增加 新 的 计 
算 机 ， 构 成 数据 库 集群 。 不 过 ， 这 样 你 就 会 在 正常 使 用 及 出 故障 时 遇 到 数据 复制 与 一 致 性 
问题 了 。 这 些 问题 之 前 从 未 出 现 过 。 


。 现在 我 们 需要 更 新 数据 库 管理 系统 的 配置 。 可 能 是 
道 。 我 门 闫 挤 了 文件 系统 的 日 志 ， 当然 ， 这 通常 是 


优化 数据 库 用 来 写 改 层 文件 系统 的 通 
推荐 的 (或 者 说 要 具体 情况 具体 分 
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。 在 数据 库 系统 上 投入 了 足够 多 的 精力 之 后 ， 我 们 转 过 来 审视 上 自己 的 应 用 。 我 们 开始 优化 索 
引 、 优 化 查询 。 不 过 ， 当 我 们 的 应 用 达到 这 个 规模 的 时 候 ， 翁 怕 不 大会 完全 没 做 过 索引 和 
查询 优化 ， 可 能 已 经 优化 过 不 少 了 。 那 么 ， 只 好 重新 审视 所 有 数据 库 访问 代码 ， 想 发 现 堆 

星 的 可 以 调 优 的 机 会 ， 这 是 一 件 相当 头疼 的 事 。 优 化 内 容 可 能 包括 减少 或 改写 join 操 作 ， 除 

去 比较 消耗 资源 的 特征 〈 如 在 存储 过 程 中 的 XML 处 理 ) 等 。 当 然 ， 我 们 做 那些 XML 人 处 理 本 

肯定 是 有 原因 的 ， 如 果 我 们 不 得 不 做 的 话 ， 那 就 得 # > 所 到 应 用 层 去 ， 希 望 那 里 能 解决 

问题 ， 并 祈祷 我 们 这 么 干 不 会 同时 把 什么 其 他 东西 弄 坏 


。 我 们 增加 了 一 个 缓存 层 。 对 于 大 系统 可 能 会 引入 分 布 式 缓存 ， 如 memcached、EHCache ` 
Oracle Coherence 或 其 他 类 似 产品 。 现 在 ， 我 门 又 需要 面临 更 新 缓存 和 更 新 数据 库 的 一 致 性 
问题 了 ， 对 于 集群 来 说 ， 问 题 更 加 严重 。 


现在 我 们 把 注意 力 重 新 转向 数据 库 于 应 用 已 经 在 那里 了 ， 并 且 我 们 很 了 解 主要 的 查询 
路 径 ， 现在 我 们 复制 那些 访问 频率 较 高 的 数据 ， 让 它们 更 接近 于 查询 想 要 得 到 的 形式 。 这 
个 过 程 称 为 反 范 式 化 (denormalization) ， 它 与 关系 模型 的 关键 特征 里 的 五 种 形式 是 对 立 
的 ， 也 违反 了 Codd 对 关系 型 数据 模型 的 12 条 建议 。 我 们 只 能 安慰 自己 说 我 们 是 生活 在 现实 
世界 之 中 ， 而 非 理 论 世界 中 ， 并 保证 我 们 所 做 的 都 是 为 了 让 应 用 能 够 在 可 接受 的 响应 时 间 
下 完成 工作 ， 即使 这 已 经 不 是 : “纯粹 ”的 关系 模型 了 。 


i) 


我 相信 这 一 幕 对 你 肯定 非常 熟悉 。 


师 们 已 经 开 


和 当年 亨利 福特 的 境遇 有 些 相 似 ， fc 
做 了 一 些 令 人 称道 而 有 趣 的 工作 。 


首先 我 们 必须 认 计 
某 些 问 题 非常 有 交 
数据 的 方法 。 如 果 我 们 | 
全 新 的 ， 带 来 了 很 多 新 
发 了 质疑 ， 甚 至 受 
们 拥有 一 系列 围绕 IMS 世 


不 过 如 今 ， 关 系 模型 
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恨 好 的 理解 ， 


始 考虑 这 个 情况 是 不 是 


的 已 不 仅仅 是 从 本 来 相 时 ERST s 他们 经 
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P mE 


留任 何 余地 终结 所 有 其 他 表示 
是 个 破坏 性 的 发 明 。 它 是 


pij Ei 
旦 有 新 意义 。 关 系 模型 在 当时 引 
E Titema 
| BAH J 来 分 蛋糕 yy 


头 把 交椅 。SQL 获 得 了 广泛 的 文 持 也 
。 甚 至 4. 95 美 7 


已 经 无 可 辩驳 地 坐 上 了 数据 世界 
大 学 的 入 | ] 深 各 就 会 讲授 SQL 与 关系 数据 库 


也 是 反对 着 之 一， 因为 


51 月 网 可 以 租 到 有 免费 
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组 织 的 架构 标准 


标准 ， 学 习 


都 有 相当 难得 
仅仅 是 出 于 渗透 或 是 惯性 
道 。 


也 就 是 说 ， 要 和 胡 


有 效 。 
如 有 果 你 并 未 面 


忆 此 ， 也 许 真 正 的 问题 不 是 “关系 数 


而 定 。 即 使 没有 这 样 的 


对 有 什么 数据 库 平台 仍 是 明智 的 。 我 们 的 开发 和 架构 方面 的 同事 


已 经 习惯 了 关系 型 数据 库 是 一 个 四 海 一 家 的 解决 之 


尔 有 什么 问题 要 解决 ”。 


外 保 你 的 解决 方案 和 你 的 问题 相 匹 


十 于 Cassandra 之 类 的 复杂 系统 的 取舍 完全 没有 


关系 型 数据 库 长 期 以 来 很 好 地 服务 于 我 们 这 


A 
据 库 的 知识 、 放 弃 他 们 多 年 
精心 构建 起 来 的 系统 。 


， 或 是 破坏 人 


aa。 关系 型 数据 库 确 实在 解决 很 多 问题 时 非常 


F 何 [UD 丢掉 他 们 的 所 有 关系 型 数 
对 于 这 类 系统 的 难得 


也 们 的 员工 花费 数 月 时 间 


网 络 的 爆炸 性 发 
构建 Web 的 时 候 
不 在 了 ， 从 最 初 也 


些 开 发 者 和 DBA。 但 是 由 于 互联 网 ， 符 别 是 社会 化 


e 


应 的 必须 要 处 理 的 数 


EH E > 当 Tim Berner-Lee 在 20 世 纪 90 年 代 初 


只 是 为 了 物理 实验 室 里 的 博 


当 而 已 。 如 今 ， 互 联网 已 经 无 处 


联网 。 这 总 味 着 互联 网 VLA E E inus 
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不 过 ， 有 些 基础 设 


号 的 5 岁 小 孩 ， 每 个 人 都 在 使 用 互 


ART 这 也 成 为 了 Wet 巧 寺 天 1 


[的 架构 的 


A qn uc E JACHT, H 


用 有 解决 问题 
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新 来 自 于 人 象 Facebook 和 Twitter 这 样 的 年 轻 


所 以 ， 真 正 的 问题 可 能 


， 而 是 “如 果 数 据 不 是 问题 ， 


十 始 看 到 类 似 的 创新 了 ， 不 过 这 些 创 


那么 应 该 


怎么 来 处 理 这 些 数据 ”。 
达 上 百 TB 的 超大 规模 
性 或 是 那个 水 平 


你 可 和 能 会 说 ， 你 不 需要 那 利 


用 性 、 可 调整 的 一 致 性 ， 以 及 高 


Fh 可 用 


你 当然 是 对 多 AKEE, Wa 


你 的 数据 库 不 能 


我 无 意 通 过 诡辩 3 J 
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"eis E 
eii RERO 
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本 无 法 工作 的 。 


PU acia 


+% 


且 如 果 你 发 现 它 可 ， 就 可 


I 非 关系 型 数据 库 。 我 只 是 想 介绍 


需求 是 什么 。 我 不 需要 你 重新 考虑 自 


台 使 用 它 开 展 实际 工作 了 ° 


H 
的 


数据 库 ， 除 非 你 已 经 被 数据 库 问 题 折腾 得 苦 不 卉 言 了 ， 或 是 你 需要 扩展 数据 库 却 无 能 为 力 ， 或 
是 你 的 数据 模型 无 法 足够 灵活 地 匹配 你 的 应 用 需求 。 我 并 不 要 求 你 考虑 你 的 数据 库 ， 但 请 考虑 
标 和 它 将 要 面临 的 问题 。 如 果 你 能 收集 到 有 关 商 业 目 标的 更 多 数据 
TA V S AT 


不 要 问 如 何 让 Cassandra 融 入 你 的 现 有 环境 ， 要 问 你 希望 解决 什么 数据 问题 而 不 是 只 关注 现在 数 
LL NET 要 问 你 希望 的 新 型 数据 是 什么 样 的。 如 果 可 能 的 话 ， 你 想 要 如 何 去 深 入 理解 你 


1.2 关系 型 数据 库 简 单 回顾 


虽然 你 可 能 已 经 很 熟悉 关系 型 数据 库 管 理 系统 (RDBMS) ) 了 ， 我 们 还 是 要 来 关注 一 下 关系 型 数 
据 库 的 一 些 基 本 概念 。 这 会 让 我 们 了 解 在 分 布 式 系统 ， 尤 其 是 那些 互联 网 规模 的 超大 数据 系统 
中 有 关 技 术 折 中 考虑 的 最 新 理念 。 


1.2.1 RDBMS: 出 类 拔 萃 与 表现 平平 


关系 型 数据 库 在 过 去 的 四 十 年 间 一 统 天 下 的 原因 有 很 多 ， 而 其 中 的 一 个 重要 原因 便 是 它 有 功能 
丰富 、 语 法 简明 的 结构 化 查询 语言 (SQL) 。SQL 在 1986 年 被 接纳 为 ANSI 标 准 ， 之 后 有 过 多 个 
修订 版 ， 而且 有 各 个 厂商 带 来 的 专 有 扩展 语法 格式 ， 比 如 微软 的 T-SQL 和 Oracle 的 PL/SQL， 痢 
提供 了 各 自 附 加 的 针对 其 实现 的 特性 。 


SQL 之 所 以 强大 的 原因 有 很 多 。 它 允许 用 户 使 用 语句 来 表述 复杂 的 数据 关系 ， 构 成 数据 处 理 语 
DML) 来 插入 、 选 择 、 更 新 、 删 除 、 截 断 和 合并 数据 。 你 可 以 使 用 基于 关系 代数 的 函数 进 
FE 富 的 操作 ， 比 如 查找 集合 中 的 最 大 或 最 小 值 ， 或 对 结 采 进行 过 滤 与 排序 。SQL 语 句 文 持 对 
DETTA EL RA ATI RES ° SQL 也 提供 了 数据 定义 语言 (DDL) ， 可 以 在 运行 时 直接 创 
` 修改 或 删除 schema 结 构 。 SQL 还 多 许 你 使 用 同伴 的 二 法 格式 对 十 户 进行 授权 或 取消 授权 。 


男 一 方面 ，SQL 非 常 易于 使 用 。SQL 的 基本 语法 很 容易 学 习 ， 这 样 束 为 SQL 和 RDBMS 降 低 了 站 
槛 。 初 级 SQL 开发 者 可 以 平稳 进 阶 ， 在 软件 行业 ， 人 们 通常 面临 着 快速 的 变化 、 紧 迫 的 交付 时 
目 和 膨胀 的 预算 ， 在 这 种 压力 下 ， 吻 学 易 用 无 疑 是 非常 重要 的 。SQL 不 仪 语 法 很 简单 ， 而 且 还 
有 包括 直观 的 图 形 界 面 在 内 的 很 多 强大 的 工具 可 以 配合 数据 库 的 使 用 。 
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RONDE ATE M ARTD M RTEHRRDS SCIRET e 如 果 你 要 改变 
， 只 要 你 不 是 太 过 于 依赖 数据 库 厂 商 的 专 有 扩展 ， 
通常 都 不 会 太 困 Xx 


1. 事务 、ACID 和 两 阶段 提交 


除了 上 面 已 经 提 到 的 特性 ，RDBMS 和 SQL 还 支持 事务 。 根 据 Jim Gray 的 定义 ， 数 据 库 事务 是 一 
种 具有 ACID 特 征 的 “状态 转移 过 程 ” (参考 http://research.microsoft.com/en- 

us/um/people/gray/papers/theTransactionConcept. pdf) 。 事 务 的 关键 特性 是 它们 会 首先 虚拟 地 执 
并 允许 程序 员 在 任务 的 执行 阶段 (使 用 ROLLBACK) 来 撤销 所 有 改动 。 如 果 一 切 运行 正 
事务 就 可 以 可 靠 提交 。 对 于 事务 的 支持 很 快 就 成 为 了 非 关 系 型 数据 库 的 讨论 中 的 痛处 ， 所 
以 我 们 先 来 看 看 事务 到 底 意 RET AA ° 


ACID 是 原子 性 (Atomic) us (Consistent) Miis (Isolated) 和 持久 性 (Durable) 的 
缩写 ， 是 验证 事务 是 否 正 确 、 是 否 成 功 执行 的 标尺 和 准绳 


。 原子 性 


W 


已 


原子 
须 成 
例 


隆 的 含义 是 “要 么 全 有 ， 要 么 全 无 ”， 也 就 是 说 ， 执 行 一 个 语句 时 ， 事 务 中 的 每 个 更 新 都 必 
的 更 新 不 成 功 的 部 分 失败 状态 。 一 个 最 典型 的 


功 才能 称 为 成 功 。 不 存在 有 的 更 新 成 功 ， 有 


个 操 


。 一 致 性 


子 就 是 在 ATM 机 上 进行 汇款 服 


作 是 不 可 分 的 ， 两 个 动作 必 


性 意味 着 数据 必须 从 一 个 


向 已 经 删除 的 客户 的 主键 ， 


同 的 值 。 比 如 ， 如 果 一 个 事务 


务 : 汇款 需要 从 一 个 
须 全 部 成 功 。 


试图 删除 一 个 


否则 ， 不 一 致 的 ; 


A TE 
性 是 指 并 发 执行 的 事务 不 应 该 彼此 依赖 ， 
务 同时 需要 修改 同一 份 数据 ， 那 么 其 中 之 


它们 运行 在 各 


一 个 事务 成 功 完成 ， 变 更 就 不 再 丢失 。 这 六 


说 写 数据 的 程序 可 以 确信 变更 在 下 一 个 事务 


H 
一 就 必须 等 待 另 一 个 完成 之 后 再 操作 。 


账号 上 取 钱 ， 再 添加 到 另 一 个 账号 里 。 这 


正确 的 状态 转移 到 另 一 个 正确 的 状态 ， 不 允许 别人 看 到 没有 意义 
客户 和 她 的 订单 历史 ， 就 不 应 该 留 下 一 个 订单 
天 态 可 能 会 让 某 些 试图 读 订 单 记录 的 操作 出 


的 空间 之 中 。 也 就 是 说 ， 如 果 有 


不 意味 着 其 他 事务 稍 后 不 可 以 修改 同一 数据 ， 
务 运 行 前 已 经 就 绪 。 


务 


lim. 
ign 


而 是 
EN 


为 了 


commit) 。 但 是 因为 两 阶段 提交 锁 住 


上 看 ， 这 些 属性 似乎 是 显而易见 的 ， 甚 至 不 


“互联 网 上 没有 免费 的 午餐 ” 


是 否 需 要 个 替代 方案 了 。 
在 高 负载 下 变 得 非常 困难 。 


值得 讨论 。 估 计 所 有 运行 数据 库 的 人 都 相信 ， 


因为 执行 更 新 的 关键 点 束 在 于 ， 这 些 数据 也 是 要 被 其 他 人 读 取 
° ZRT, PEETER AER PRAE PRESE, 略微 控制 它们 一 下 。 


一 旦 发 现 究竟 要 为 事 


当 你 开始 尝试 水 


务 付出 多 少 代价 ， 我 们 可 能 就 会 开始 考 


平 扩展 一 个 关系 型 数据 库 、 让 它 分 布 化 的 时 


就 必须 要 考虑 分 布 式 事务 的 问题 了 。 这 里 ， 事 务 不 再 是 一 张 表 或 一 个 库 里 的 简单 操作 了 
务 ACID 属性 的 “荣誉 >， 你 需要 一 个 精巧 设计 的 


一 个 跨越 多 个 系统 的 操作 。 为 了 继续 保持 事 


点 的 事务 管 um. 


保证 事务 跨越 多 主机 成 功 执行 ， 人 们 提出 了 
了 所 有 的 相关 资源 ， 这 种 方 * 只 对 可 以 很 快 完成 的 操作 可 


H o 
/ 门 
需要 


甚至 


两 阶 


跨越 多 台 主 机 的 情况 下 ， 你 无 法 准确 控制 自 


可 能 会 耗 时 数 小 时 。 


法 访 


去 


m 


HIPH 3E 


两 阶段 提交 〈 有 时 被 称 为 ?PC， 即 two-phase 


虽然 很 多 时 候 分 布 式 操作 都 可 以 在 不 足 一 秒 的 时 间 内 完成 ， 但 情况 并 非 总 是 如 此 。 在 有 些 


j 的 ) I 


时， 有 些 需要 协调 多 个 相关 动作 的 操作 


) 必须 等 待 前 一 个 事务 完成 ， 否 则 a 


e CU MN NONE 


的 资源 。 两 阶段 提交 需要 等 竺 一 人 


节 


， 可 以 设置 超时 来 允许 事务 协调 万 点 发 现 某 个 


。 但是， 两 阶段 提交 仍然 可 能 会 
二 肯 自 己 已 经 完成 任务 可 以 提交 了 ， 然后 


会 导致 死 循环 ， 


不 能 EX, 就 等 待 回 退 响应 


， 但 如 果 这 时 | 


解决 两 阶段 提交 的 分 布 式 事务 的 问题 ， 数 据 


来 恢复 开始 的 状态 。 


非常 常用 ， 简 单 地 说 就 是 


它 就 会 


节点 的 响应 ， uu Sr. 
点 已 经 没有 响应 了 ， 我 们 可 以 避免 一 EAT 
因为 一 个 节点 可 以 发 送 个 消息 给 事务 协调 节 


待 协调 节点 发 回 提交 响应 (或 者 如 果 


SAEI, 那么 这 个 不 科 的 节点 就 得 永 


库 领 域 中 有 人 提出 了 补偿 的 概念 。 补偿 在 Web 
操作 立刻 提交 ， 


发 现 了 什么 错误 的 话 ， 就 调用 一 个 新 的 


pie 


架构 师 们 经 常 要 用 一 些 基 本 的 、 众 所 周知 的 补偿 模式 作为 两 阶段 提交 的 替代 方案 ， 包 括 失 败 
省事 务 - 放弃 出 错 事务 以 及 事后 核对 等 。 另 一 个 替代 两 阶段 提交 的 方法 是 得 到 通知 时 重 试 ! 
错 操作 。 对 于 预定 系统 或 是 股票 销售 记录 系统 ， 这 些 方法 可 能 无 法 满足 需求 。 但 对 于 其 他 应 
用 ， 比 如 计 费 或 是 售票 应 用 ， 这 是 可 以 接受 的 。 


ds 
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LL 


— 55 Google 的 架构 师 Gregor Hohpe 曾 经 写 过 一 篇 题 为 “星巴克 不 使 用 两 阶段 提交 ”的 非常 精 
彩 、 被 广泛 引用 的 博客 。 文 中 介绍 了 现实 世界 中 的 两 阶段 提 交 是 多 么 难以 扩展 ， 并 特别 介绍 
了 一 些 奉 代 方 法 。 这 篇 文章 浅显 `、 有 趣 而 富有 启示 ， 值 得 一 读 。 链 接地 址 是 : 
http://www.eaipatterns.com/ramblings/18_starbucks.html ° 


2PC 给 应 用 开发 者 引入 的 问题 包括 可 用 性 的 损失 和 部 分 出 错时 导致 的 高 时 延 ， 两 者 都 是 难以 接 
受 的 。 所 以 一 旦 你 的 事业 发 展 顺利 ， 需 要 扩展 过 去 的 单机 数据 库 的 时 候 ， 你 必须 要 和 弄 明白 如 何 
在 保持 ACID 属性 的 同时 处 理 好 跨越 多 台 机 器 的 事务 问题 。 不 论 你 是 有 10 台 、100 台 还 是 1000 台 
数据 库 服 务 器 ， 事 务 都 和 运行 在 一 个 节点 上 一 样 需 要 具备 原子 性 。 只 是 这 下 子 任务 要 艰巨 得 多 


关系 型 数据 库 的 一 个 经 常 被 称赞 的 特性 就 是 它们 提供 了 丰富 的 schema。 通 过 schema， 你 可 以 使 
用 关系 模型 表述 各 种 应 用 领域 中 的 对 象 。 在 业界 有 很 多 高 级 〈 又 昂贵 ) 的 工具 ， 如 CA 的 ERWin 
Data Modeler 可 以 帮 你 做 到 这 点 。 但 是 ， 为 了 创建 正确 、 规 范 的 schema， 你 不 得 不 创建 某 些 表 ， 
来 容纳 一 些 在 应 用 领域 的 业务 中 并 不 存在 的 对 象 。 比 如 ， J 含 了 学 生 
表 和 课程 表 。 但 因为 这 是 一 个 多 对 多 的 关系 (一 个 学 生 可 以 同时 修 多 门 课程 ， 而 一 个 课程 同时 
会 有 多 名 学 生 上 ) ， 你 不 得 不 创建 一 个 联合 表 。 这 污染 WT T NUR HUS 
的 其 实 只 是 学 生 和 课程 。 这 要 强 刘 我 们 个 得 不 写 更 复杂 的 SQL 吾 句 来 将 这 些 表 联 合 到 一 起 使 


用 。 而 且 join 语 句 可 能 会 很 慢 


对 于 不 算 大 的 系统 ， 这 根本 不 是 问题 。 但 是 当 你 需要 在 多 张 表 里 同时 处 理 很 多 行 的 时 候 ， 复 灯 
的 查询 和 join 操 作 可 能 会 慢 得 难以 承受 。 


最 后 ， 并 不 是 所 有 的 schema 都 很 好 地 符合 关系 模型 。 在 过 去 10 年 中 ， 复 杂事 件 处 理 系统 的 应 用 
非常 广泛 ， 它 使 用 一 个 非常 快速 的 流 来 表示 状态 变化 。 这 种 系统 常常 用 于 将 运行 时 的 相关 事件 
与 其 他 可 能 相关 的 事件 进行 对 比 ， 来 分 析 得 到 结论 以 支持 两 业 决策 。 虽然 事件 流 可 以 在 关系 型 
数据 库 中 描述 ， 但 这 种 表达 方式 的 扩展 却 十 分 别扭 。 


如 果 你 是 一 个 应 用 开发 者 ， 应 该 对 很 多 对 象 关系 映射 (ORM) 框架 非常 熟悉 ， 近 年 来 很 多 此 类 
框架 可 以 简化 应 用 对 象 到 关系 模型 的 映射 难度 。 同 样 ， 对 于 小 系统 ，ORM 非 常 简 单 。 但 ORM 同 
样 引 入 了 新 的 问题 ， 比 如 内 存 需 求 大 ， 而 旦 ，ORM 框 架 引 入 的 大 量 笨拙 的 映射 代码 也 污染 了 应 
用 的 代码 。 下 面 是 一 个 在 Java 中 使 用 Hibernate 来 “减轻 ”编写 SQL 代码 的 负担 的 例子 : 


QCollectionOfElements 
QJoinTable(name-"store description", 

joinColumns = QJoinColumn(name-"store code")) 
GQMapKey(columns-[QColumn(name-"for store",length-3)j) 
GQColumn(name-"description") 
private Map getMap() { 

return this.map; 
J 


Ih aaa 


是 不 是 我 们 根本 没有 解决 这 里 的 问题 ? 当然 ， 尤 其 对 于 那些 与 服务 和 基于 XML 的 应 用 有 大 量 文 
档 交换 的 系统 ， 并 不 总 能 简洁 地 映射 关系 型 数据 库 。 这 更 会 加 剧 这 个 问题 。 


3. 分 片 与 shared-nothing 架 构 


如 果 你 无 法 拆 分 系统 ， 就 无 法 扩展 它 。 


Randy Shoup, ，eBay 杰 出 架构 师 


另 一 种 用 于 扩展 关系 型 数据 库 的 方法 是 在 系统 架构 中 引入 分 片 (sharding) 。 这 种 方法 已 经 在 很 
多 大 型 网 站 和 Web2 0 应 用 中 取得 了 成 功 ， 比 如 eBay， 分 片 架构 可 以 支持 每 天 数 十 亿 次 的 SQL 碍 
询 。 分 片 的 思路 束 是 将 数据 拆 分 ,不 把 所 有 数据 放 到 一 个 单独 的 服务 器 上 ， 也 不 把 数据 复制 到 
集群 中 的 所 有 服务 器 上 ， 而 是 把 数据 水 平地 进行 分 TE, ， 并 分 别 存放 。 


例如 ， 一 个 关系 型 数据 库 里 有 一 个 很 大 的 顾客 表 。 (从 程序 的 角度 看 ) 最 省 事 的 扩容 方法 就 是 
通过 增加 CPU、 内 存 ， 更 换 更 好 的 硬盘 来 进行 垩 直 扩 展 了 ， 可 是 一 旦 你 的 事业 继续 成 功 ， 获 得 
了 更 多 的 用 户 ， 在 某 一 时 刻 (可 能 是 达到 上 千 万 行 的 时 候 ) ， 你 可 能 不 得 不 开始 考虑 无 法 增加 
更 多 机 器 的 问题 了 。 再 加 机 器 的 话 ， 是 否 要 问 所 有 机 器 复制 所 有 数据 ? 或 者 是 否 把 单 张磊 客 表 
拆 开 ， 每 个 数据 库 只 有 一 部 分 记录 和 相关 的 订单 信息 ? 这 样 ， 当 客户 进行 查询 的 时 候 ， 负 载 将 
只 压 在 拥有 相关 记录 的 机 器 上 ， 而 对 其 他 机 器 不 产生 影响 。 


显然 ， 要 进行 分 片 ， 你 必须 找到 一 个 合理 的 键 值 来 对 记录 进行 划分 。 比 如 ， 你 可 以 按照 首 字母 
来 进行 划分 ， 把 顾客 记录 分 布 到 26 台 机 器 上 ， 每 台 机 器 仅 存 储 姓 氏 以 一 个 字母 开头 的 顾客 的 记 
录 。 不 过 这 似乎 不 是 一 个 好 的 策略 ， 很 少 有 人 的 姓氏 以 字母 Q 或 Z 开 头 ， 这 两 台 机 器 会 一 直入 
闲 ， 而 存放 J、M 和 S$ 开 头 姓氏 的 顾客 的 机 器 会 一 直 很 已 。 你 还 可 以 以 某 些 数字 来 进行 分 片 ， 比 
如 电话 号 码 、 成 为 会 员 的 日 期 ， 或 是 顾客 所 在 州 的 名 字 。 如 何 分 片 完全 取决 于 你 希望 数据 如 何 


里 有 三 种 基本 的 确定 分 片 结构 的 策略 。 
。 按照 特性 或 功能 来 分 片 


这 是 eBay 的 杰出 染 构 师 Randy Shoup 采 用 的 方法 ， 他 曾 在 2006 年 帮助 eBay 建立 了 成 熟 的 架构 ， 可 
以 文 持 每 天 数 十 亿 次 查询 。 使 用 这 个 策略 ， 并 不 是 将 一 个 表 中 的 记录 进行 拆 分 (比如 之 前 提 到 
的 顾客 表 ) ， 而 是 分 成 多 个 功 外 i ae Mac o 在 eBay， 用 户 分 到 一 个 分 
片 中 ， 而 出 售 的 产品 则 放 到 另 一 个 分 片 中 。 在 Flixster， 电 影评 分 放 到 一 个 分 片 中 ， 而 评论 则 放 
到 男 一 个 分 片 里 。 这 个 方法 需要 深入 理解 应 用 领域 ， 才能 更 好 地 分 片 


。 基于 键 值 的 分 片 


这 种 方法 需要 在 你 的 数据 中 找到 一 个 可 以 均匀 分 布 到 各 个 分 片 中 的 键 值 。 不 像 在 刚才 的 例子 中 
那样 ， 非 常 幼 稚 地 通过 字母 表 的 方式 简单 进行 分 布 ， 而 应 当 对 一 个 关键 数据 元 素 进行 一 次 单 向 
哈 希 ， 根 据 哈 希 值 将 数据 分 布 到 多 台 机 器 上 。 这 种 策略 经 常会 使 用 一 个 时 间或 是 数值 键 进 行 哈 
希 。 

。 AKRE 
在 这 种 方法 里 ， 集 群 中 的 一 个 节点 会 充当 黄页 目录 的 角色 ， 用 于 查 询 哪个 节点 拥有 用 户 要 访问 


的 数据 。 A E d 首先 ， 由 于 每 次 人 查询 都 需要 进 行 查 表 操 作 ， 这 会 影 
响 到 查询 的 性 能 ， 其 次 ， 这 个 表 不 仅 会 成 为 一 个 瓶颈 ， 还 可 能 是 系统 中 的 一 个 单 点 失效 点 。 


SS 


unb 
GC 


Nds ' http;//Isvp.wordpress.com/2008/06/20 介绍 了 Flixster 是 如 何 使 用 分 片 策略 来 改进 网 站 性 
的 。 


家 据 不 同 的 分 片 策略 ， 可 以 减 小 资源 竞争 ， 不 仅 允 许 你 水 平 扩展 系统 ， 而 且 可 以 更 精确 地 扩 
展 ， 因 为 你 可 以 精确 地 提升 特定 分 片 的 性 能 。 


分 片 可 以 看 做 是 一 种 shared-nothing 的 数据 库 染 构 。 所 谓 shared-nothing 染 构 是 指 分 布 式 系统 中 ， 
不 存在 集中 存储 的 (共享) 状态 ， 也 就 无 需 竞 争 共 享 资源 了 。 这 一 概念 是 由 加 州 大 学 伯克利 分 
校 的 Michael Stonebraker 于 1986 年 在 他 的 论文 “The Case for Shared Nothing” 中 提出 的 。 


shared nothing 近 来 在 Googlek REA T, 他 们 实现 了 不 要 共享 状态 的 BigTable 数 据 库 和 
MapReduce 分 } 布 Ee 这 些 系 乡 充 可 以 近 畔 无 限 地 扩展 展 。Cassandra 数 据 库 也 是 shared- 
nothing 架 构 的 ， 没 有 中 心 控制 节点 ， 也 没有 主 从 之 分 ， 所 有 节点 是 对 等 的 。 


一 个 你 可 以 在 http:/db.cs. es edu/papers/hpts85-nothing.pdf 阅读 这 篇 1986 年 的 论文 “The 

OA 论文 非常 简短 ， 只 有 寥寥 数 页 。 如 果 你 看 看 的 话 ， 就 会 发 现 很 
多 shared-nothing 分 布 d 诸如 易于 达到 高 可 用 性 和 易于 扩展 到 大 量 节点 等 都 
丛 恰 是 Cassandra 所 擅长 的 。 


J 


MongoDB 还 提供 了 自动 分 片 能 力 ， 用 于 失效 备 援 和 负载 均衡 o íh 多 非 关系 型 数据 库 都 提供 了 这 
项 目 动 功能 ， 而 且 用 起 来 非常 方便 。 手 工 创 建 和 维护 上 自 定 义 的 分 片 是 个 技术 活 。 从 数据 架构 的 
宏观 层面 了 解 分 片 十 分 有 必要 ， 但 具体 到 Cassandma， 它 是 自动 化 的 ， 使 用 了 一 种 类 似 基于 键 值 
分 片 的 方法 ， 将 数据 分 布 到 不 同 节 点 上 


4. 小 结 


总 之 ， 关系 型 数据 库 非 常 擅长 于 于 解决 菜 些 数据 存储 问题 ， 但 因为 其 自身 特点 ， 当 系统 需要 扩展 
的 时 候 ， 会 受到 很 强 的 制约 。 扩 展 时 ， 你 常常 得 想方设法 避免 Join 操 作 ， 这 意味 着 数据 的 反 范式 
荆 ， 意 味 着 需要 保存 数据 的 多 个 副本 ， 以 及 严重 地 破坏 了 你 对 数据 库 和 应 有 用 的 最 初 设计 。 而 
日 ， 你 几乎 必然 要 考虑 分 布 式 事务 的 问题 ， 这 很 快 就 将 成 为 一 个 瓶颈 。 除 了 最 昂贵 的 RDBMS ， 
其 他 的 都 不 支持 补偿 操作 。 而 即使 你 花费 巨 资 严 了 最 昂贵 的 数据 库 ， 你 仍然 需要 对 那些 无 法 忽 
视 分 布 式 事务 的 地 方 十 分 这 慎 地 选择 分 片 所 使 用 的 键 值 。 


或 许 ， 更 重要 的 是 ， 随 着 我 们 讨论 RDBMS 的 限制 ， 和 随 之 产生 的 用 于 克服 扩展 性 问题 所 使 用 的 
架构 策略 ， 一 幅 巨 图 正在 慢 慢 展 开 。 可 以 看 出 ， 一 些 NoSQL 技 术 或 许 与 我 们 的 最 初 设想 相 比 其 
实 并 不 激进 ， 也 不 算 吓 人 ， 倒 更 像 是 一 些 我 们 管理 大 数据 库 时 束 在 做 的 工作 的 目 然 表 达 和 封 


i— 


1.2.2 互联 网 的 规模 
一 个 发 明 必须 对 它 完成 时 的 世界 有 意义 ， 而 非 它 开始 时 的 。 
—— Ray Kurzweil 


基于 RDBMS 的 一 些 内 在 的 设计 初衷 ， 它 并 不 像 其 他 的 系统 一 样 那么 容易 进行 扩展 ， 尤 其 是 相 比 
于 一 些 新 近 的 ， 在 设计 时 考虑 了 互联 网 的 结构 的 系统 。 不 过 ， 我 们 不 但 需要 考虑 互联 网 的 静态 
结构 ， 还 需要 考虑 它 难 以 置信 的 扩张 速度 E a 我 们 希望 系统 架构 
可 以 让 我 们 的 组 织 利用 即时 的 数据 来 支持 决策 ， 为 用 户 提供 更 强大 的 新 功能 和 高 性 能 。 


WE 


“能 有 一 个 不 太 容 易 考 证 的 传说 ，17 世 纪 的 英国 诗人 John Milton 阅 读 过 地 球 上 曾经 出 版 过 
"mU Milton 精 通 多 种 语言 (他 去 世 前 甚至 还 在 学 习 印 第 安 音 部 落 纳 拟 霍 的 语言 ) ， T E 
那个 年 代 每 年 出 版 的 图 书 大 概 是 上 和 于 册 ， 所 以 ， 全 都 读 过 也 并 非 不 可 能 。 但 从 那 时 至 今 ， 数 
ERU ED DL iyi e 


1 x 


众所周知 ， 互 联网 还 在 快速 发 展 中 。 现 在 让 我 们 花 一 点 时 间 来 看 看 IDC 的 研究 报告 《扩展 中 的 
数字 世界 》 中 的 一 些 数字 。 (全 文 可 以 在 http://www.emc.com/collateral/analyst-reports/expanding- 
digital-idc-white-paper.pdf 获得 。) 


P 


。 YouTube 每 天 播 出 1 亿 段 视频 。 


Chevron 每 天 积累 2 TB 数据 。 


2006 年 ， 互 联网 的 总 数据 量 大 约 是 166 EB， 而 到 了 2010 年 ， 这 个 数字 大 约 是 1000EB 了 ° 
EB 是 1018 字 节 ， 即 110 万 TB。 更 直观 地 说 ，1 方 年 长 的 DVD 男 质 的 视频 
而 166 EB 大 约 是 所 有 图 书 的 信息 量 总 和 的 300 万 倍 。 


沃尔玛 的 顾客 交易 数据 库 在 2000 年 大 约 是 110 TB， 每 天 记录 大 约 上 千 万 条 。 到 了 2004 年 ， 
这 个 数据 库 已 经 有 大 约 5000 TBT ° 


电影 阿 凡 达 的 制作 过 程 中 大 约 需 要 用 到 1 PB 的 存储 空间 ， 如 果 这 是 1 首 MP3 的 话 , 。 可 以 播 
放 32 年 (来源 : http//bitly/736XCz ) ° 


2010 年 5 月 ，Google 每 天 发 售 10 万 部 Android 手 机 ， 所 有 这 些 
Z o 
Z3 


。 在 1998 年 ， 全 球 email 账 号 大 约 有 2.53 亿 个 ， 到 2010 年 ， 这 一 数字 接近 20 亿 。 


可 见 ， 互 联网 上 需要 存储 、 处 理 与 查询 各 种 数据 ， 使 用 这 些 数 据 的 业务 也 各 不 相同 ， 不 仅 需要 
考虑 零售 供应 商 们 的 客户 数据 ， 也 不 仅 是 数字 视频 ， 还 有 需要 数字 化 的 电视 节目 、 爆炸 式 增长 
的 email、 即 时 消息 、 手机、 射频 识别 (REID) 、IP 电 话 (VoIP) ， 等 等 。 现 在 我 们 有 蓝光 播放 
器 播放 音频 和 视频 流 。 随 着 我 们 开始 离开 物理 存储 介质 ， 提供 媒体 内 容 的 公 \ 司 ， 以 及 在 他 们 外 
玮 提供 增值 服务 的 第 三 方 ， 都 需要 极为 可 志 展 的 存储 解决 方案 。 再 考虑 一 下 ， 作 为 典型 的 应 用 
开发 者 或 数据 库 管 理 员 ， 我 们 可 能 习惯 于 把 关系 型 数据 库 看 做 是 世界 的 中 心 。 但 其 实在 企业 
中 ， 80%6 的 数据 都 是 非 结构 化 的 。 


你 或 许 觉得 Cassandra 之 类 的 NoSQL 解 决 方案 所 提供 的 大 规模 与 你 无 关 。 可 能 确实 如 此 ， 可 能 你 
并 没有 遇 到 Cassandra 能 帮 得 上 你 的 问题 。 我 也 并 没有 让 你 直接 对 现 有 的 数据 库 和 里 面 的 数据 动 
手 ， 将 它们 迁移 到 Cassandra。 那 将 是 非常 困难 的 一 项 工 而 且 短 时 间 内 很 难 收 到 回报 。 几 乎 
可 以 肯定 ， 你 现 有 的 数据 库 是 最 适合 你 的 应 用 系统 的 。 但 如 果 能 够 并 入 多 更 丰富 的 数据 集 ， 
来 改进 你 的 应 用 ， 你 希望 数据 库 可 以 有 什么 样 的 品质 呢 ? 这 个 HI 题 进一步 转化 为 ， 如 果 有 一 个 
I 有 弹性 、 可 扩展 、 超 大 容量 而 且 写 入 速度 超 快 的 存储 系统 ， 你 希望 你 的 应 用 变 成 什么 样 
HE? 


足 于 当今 互联 网 的 规模 ， 面 向 未 来 ，Apache Cassandra 可 能 是 你 的 答案 之 一 


1.3 ”Cassandra 的 电梯 间 演 讲 


不 论 是 好 莱 坞 的 剧 作家 还 是 初创 的 软件 公司 ， 都 被 建议 准备 好 他 们 的 “电梯 间 演 讲 ”。 这 个 演讲 
是 他 们 的 产 品 的 简 尘 介绍 ， 要 求 是 在 一 两 分 钟 内 简明 扼要 地 介绍 他 们 的 产品 ， 以 便 在 万 一 能 很 
幸运 地 和 一 个 主管 、 代 理 或 是 投资 人 一 起 挤 上 同一 个 电 襟 的 时 候 ， 能 够 说 服 他 来 投资 这 个 项 
目 。Cassandra 如 此 引人入胜 ， 让 我 们 来 浓缩 一 个 电梯 间 演 说 ， 以 便 你 能 说 服 你 的 经 理 和 同事 给 


Cassandra 一 个 机 会 。 
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预先 设 
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结构 


多 分 布 式 存 储 方案 ! 
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如 MySQL Bigtable) 
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理 任务 。 与 主 从 结构 相反 ， 
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E ES 
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办 议 是 P2P 的 ， 


一 事实 意味 着 Cassandra 不 会 存在 单 点 失效 。Cassandra 集 群 
见 过 的 MySQL、BigTable 这 样 


FP 心 的 ， 也 就 是 说 每 个 节点 都 是 一 样 的 ， 没 有 市 点 会 
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13.3 ”弹性 可 扩展 
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内 存 进行 垂直 扩展 ， 


虽然 我 从 


MongoDB 束 是 一 例 。 


节点 是 最 终 数据 控制 
库 就 难以 为 继 了 。 所 以 ， 无 中 心 的 设计 是 
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更 多 的 服务 而 不 降低 使 用 性 能 


损失 任何 一 个 节 ， 


2 ， 


点 失效 ， 你 常常 需要 增加 系统 的 复杂 度 
1 点 对 系统 服务 都 没什么 大 


FP 心 的 ， 它 不 会 有 单 点 失效 ， 所 以 支持 
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TN 
是 最 人 简 身 


BE 


的 达到 
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性 的 手段 。 


对 于 主 从 结构 来 说 ， 主 
， 构 成 


用 性 。 


gj HJ 


仅仅 通过 给 现 有 
而 水 平 扩展 则 


ERE e 


需要 增加 更 多 机 器 ， 每 台 机 器 提供 全 部 或 部 分 数据 ， 这 样 所 有 主机 都 不 必 有 负担 全 部 业务 请 求 。 
但 软件 自己 需要 有 内 部 机 制 来 保证 集群 中 节点 间 的 数据 同步 。 


弹性 可 扩展 是 指 水 平 扩展 的 特性 ， 意 即 你 的 集群 可 以 不 间断 服务 地 扩展 或 缩减 规模 。 要 做 到 i 
点 ， 集 群 必须 能 够 在 不 大 幅 修改 或 重新 配置 的 情况 下 ， 接 收 那些 新 加 入 、 获 得 全 部 或 部 分 Aci 
io. 点 ， 让 它们 开始 提供 服务 。 你 不 需要 重新 启动 进程 ， 不 必修 改 应 用 的 查询 ， 也 无 需 
本 新 约 和 数据 分 布 。 在 Cassandra 里 ， 你 只 要 加 入 新 的 计算 机 ，Cassandra 就 会 自动 地 发 现 EH 
开始 让 它 工 


当然 ， 缩 诚 规模 意味 着 你 要 从 集群 中 移 走 部 分 处 理 能 力 。 当 你 的 应 用 要 迁移 到 别 的 平台 上 ， 或 
是 应 用 失去 用 户 ， 你 不 得 不 卖 掉 部 分 硬件 的 时 候 ， 你 可 能 不 得 不 这 么 做 。 让 我 们 祈祷 这 永远 都 
不 会 发 生 吧 。 不 过 万 一 要 是 发 生 了 ， 你 也 不 需要 为 规模 的 缩减 来 让 整个 系统 变 得 混乱 不 堪 。 


13.4. 高 可 用 与 容错 


一 般 架 构 的 角度 看 ， 系 统 的 可 用 性 是 由 满足 请 求 的 能 力 来 量度 的 。 但 计算 机 可 能 会 有 各 种 各 
m 的 故障 ， 从 硬件 器 件 故 障 到 网 络 中 断 都 有 可 能 。 任 何 计算 机 都 可 能 发 生 这 些 情况 。 当 然 有 革 
些 非 常 复 杂 (通常 也 特别 昂贵 的 计算 机 可 以 自己 应 付 很 多 情况 ， 它 们 一 般 都 有 硬件 元 余 ， 并 
在 发 生 故 障 事件 的 情况 下 会 自动 响应 并 进行 热切 换 。 但 任何 人 都 可 能 会 偶然 碰 断 以 太 网 线 ， 这 
时 一 个 单独 的 数据 中 心 就 会 有 灾难 发 生 ， 这 些 都 是 无 法 避免 的 。 所 以 ， 对 于 一 个 需要 高 可 用 的 
系统 ， 它 必须 由 多 台 联 网 的 计算 机 构成 ， 并 且 运 行 于 其 上 的 软件 也 必须 能 够 在 集群 条 件 下 工 
作 ， 有 设备 能 够 识别 节点 故障 ， 并 将 发 生 故 障 的 中 断 的 功 外 在 简 余 系统 上 进行 恢复 


Cassandra 束 是 高 可 用 的 。 你 可 以 下 不 中 断 系统 的 ; 青 况 下 幸 换 故障 节点 ， 还 可 以 把 数据 分 布 到 多 
个 数据 中 心里 ， 从 而 提供 更 好 的 本 地 访问 性 能 ， 并 且 在 某 一 数据 中 ， ek EAUX ` 洪水 等 不 可 抗 
灾难 的 时 候 防止 系统 彻底 瘫痪 。 


13.5 ”可 调节 的 一 致 性 


一 致 性 的 基本 含义 是 读 操作 一 定 会 返回 最 新 写 入 的 结果 。 考 虑 电子 商务 网 站 的 两 个 客户 同时 要 
把 一 个 商品 放 到 他 们 的 购物 车 里 的 情景 。 如 果 我 在 你 刚刚 拿 走 最 后 一 个 商品 的 时 候 也 要 把 商品 
放 到 目 己 的 购物 车 里 ， 那 么 你 应 该 得 到 这 个 商品 ， 而 我 应 该 被 告知 商品 已 经 售 完 了 。 在 把 状 

一 致 地 写 到 所 有 有 此 数据 的 节点 的 时 候 ， 这 点 是 得 到 保证 的 。 


是 ， 天 下 没有 免费 的 午餐 ， 后 面 我 们 还 会 看 到 ， 扩 展 数据 存储 系统 就 意 味 着 我 们 不 得 不 EX 
致 性 、 节 点 可 用 性 和 分 区 耐 受 性 之 间 做 某 些 折衷 。Cassandra 常 被 称 作 是 “最 终 一 致 性 ”， 这 
实际 有 点 让 人 误解 。 简 单 地 说 ，Cassandra 牺 牲 了 一 点 一 致 性 来 换取 了 完全 的 可 用 性 。 但 是 
Cassandra 实 际 更 应 该 表述 为 “可 调 一 致 性 ">， 它 人 允许 你 来 方便 地 选 定 需要 的 一 致 性 水 平 与 可 用 性 
水 平 ， 在 二 者 间 找 到 平衡 点 。 


“最 终 一 致 性 "这 个 名 一 些 人 对 于 一 个 被 称 为 “最 终 一 致 "的 系统 非常 不 放 
心 ， 这 里 让 我 们 来 具体 解读 


Wet pida Su: 容 的 说 法 。 或 许 最 终 一 致 性 对 社交 应 用 可 能 还 可 以 ， 因 为 数 
据 并 不 那么 重要 。 毕 竟 你 给 妈妈 由 出 出 了 小 Billy 吃 了 什么 早餐 这 样 的 事情 即 IR TB ATUS 
的 。 但 我 的 数据 却 让 常生 重要 ， 在 我 的 数据 模型 里 ， 绝 对 不 会 允许 最 终 一 致 性 这 种 可 笑 的 事情 
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可 是 事实 上 ， 大 部 分 最 流行 的 网 络 应 用 〈 亚 NB * Facebook ^ Google > Twitter) 都 在 使 
已 应 该 确实 有 可 取 之 处 。 这 些 数据 对 于 运营 这 些 应 用 的 公司 来 说 也 应 该 是 非常 重 
是 他 们 赖 以 生存 的 产品 ， 而 且 这 些 公司 在 竞争 如 此 激烈 的 世界 里 已 经 成 长 为 数 十 


ME 
e 


营 收 的 巨头 ， 拥 有 几 十 亿 用 户 。 或 许 真 的 有 系统 可 以 保障 在 这 样 一 个 高 流量 、 接 入 不 同 网 络 的 
系统 里 ， 能 够 得 到 即时 、 有 保障 而 且 完美 的 一 致 性 ， 不 过 你 现在 可 能 还 找 不 到 这 样 的 完美 系 


批评 者 们 抱怨 Cassandra 之 类 的 海量 数据 库 只 支持 最 终 一 致 性 ， 而 其 他 分 布 式 系统 可 以 支持 严格 
一 致 性 。 但 是 世界 如 此 丰富 多 彩 ， 事 实 也 从 来 不 是 非 黑 即 白 ， 要 么 一 致 、 要 么 不 一 致 这 样 的 二 
元 论 并 不 能 真实 地 反映 实际 情况 。 实 际 上 一 致 性 也 是 有 很 多 不 同 级 别 的 ， 而 且 在 真实 世界 里 ， 
一 致 性 也 会 受到 不 同 外 部 环境 的 极 大 影响 。 


T 生 是 架构 师 们 可 选 的 多 种 一 致 性 模型 中 的 一 个 。 让 我 们 现在 来 看 看 这 些 做 了 不 同 折 中 
JERAI o 


。 严 格 一 致 性 


有 时 也 叫做 顺序 一 致 性 ， 是 最 严格 的 一 致 性 要 求 。 它 要 求 所 有 读 操作 总 是 返回 最 新 的 写 结果 。 

这 听 起 来 很 好 ， 似 乎 确实 是 我 们 所 需要 的 。 就 选 它 好 了 ! 但 是 ， 再 仔细 看 看 ， 我 们 还 会 看 到 什 

么 ?“ 最 新 的 写 结果 ”到 底 意味 着 什么 ?最 新 写 给 谁 的 ? 在 一 个 单 处 理 器 的 机 器 里 ， 不 会 看 出 任 

何 问题 ， 因 为 无 论 如 何 操作 都 会 逐一 顺序 进行 。 但 是 ， 当 系统 分 布 在 位 置 分 散 的 多 个 数据 中 心 

的 时 候 就 变 得 不 那么 可 靠 。 要 达到 严格 一 致 性 ， 需 要 某 种 全 局 锁 机 制 来 给 每 个 操作 加 上 一 个 时 

n D 可 处 ， 用 户 位 于 何 处 ， 也 不 论 得 到 响应 需要 访问 多 少 服 务 ， 而 且 这 些 服 务 
能 是 分 散 的 。 


。 因 果 一 致 性 


这 种 一 致 性 模型 比 严格 一 致 性 稍 弱 。 这 种 模型 消除 了 幻想 中 的 需要 同步 一 切 操作 的 单一 的 全 局 
锁 ， 避 免 了 无 法 承受 的 瓶颈 。 因 果 一 官 使 用 更 为 语义 化 的 方法 ， 莹 试 去 
判断 事件 的 原因 ， 并 按照 因果 关系 来 达到 一 致 性 。 这 意味 着 潜在 相关 的 写 操作 必须 被 顺序 读 
出 。 如 果 两 个 彼此 无 关 的 不 同 操作 同时 写 同 一 个 域 ， 那么 这 些 写 操作 可 以 被 推断 出 并 不 是 因 
相关 的 。 而 如 果 一 个 操作 紧 接 着 一 个 进行 ， 这 可 能 就 是 因果 相关 的 了 。 因 果 一 致 性 要 求 ， 相 关 
的 写 操 作 必 须 被 顺序 读 出 。 


。 弱 一 致 性 (最 终 一 致 性 ) 
最 终 一 致 性 从 字面 EEDE 更 新 终 将 传播 到 整个 分 布 式 系 统 的 每 个 角落 ， 但 这 需要 一 定 的 时 
间 。 最 终 ， 所 有 副本 都 会 是 一 致 的 。 
当 你 考虑 需要 如 何 才能 达到 更 好 的 一 致 性 的 时 候 ， 最 终 一 致 性 名 然 变 得 很 有 吸引 力 。 


在 考虑 一 致 性 、 可 用 性 和 分 区 耐 受 性 时 ， 对 于 一 个 给 定 的 系统 我 们 只 能 达到 其 中 的 两 个 目标 
(我 们 会 在 下 一 节 Brewer 的 CAP 理 论 来 详细 讨论 这 个 问题 ) 。 中 ， 心 问题 实际 是 多 副本 数据 的 更 
新 问题 。 要 达到 强 一 致 性 ， 所 有 副本 上 的 操作 都 必须 同步 进行 ， 这 就 意味 着 它们 必须 要 阻塞 ， 

锁定 所 有 的 副 了 直到 操作 完成 这 一 过 程 中 ， AY 充 必 须 被 阻塞 ， 锁 定 所 有 的 副本 ， 所 有 有 竞 
争 关系 的 客户 端 都 不 得 不 等 待 这 一 操作 的 完成 。 这 个 系统 的 副作用 就 是 ， 一 旦 系统 中 的 某 些 节 
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点 出 故障 的 时 候 有 些 数据 成 为 不 可 用 的 了 。 正 如 亚 马 进 的 CTO Wemer Vogels 所 说 的 : “数据 
在 被 确定 完全 正确 之 前 都 是 不 可 用 的 ， 而 不 用 去 试图 解决 答案 的 正确 性 。” (参考 “Dynamo: 
Amazon’s Highly Distributed Key-Value Store”, 

http://www.allthingsdistributed.com/2007/ Lene bubo fiif ， 第 207 页 。) 


我 们 可 以 换 用 更 乐观 的 方法 来 进行 副本 复制 一 一 为 了 避免 影响 客户 端的 操作 ， 在 后 台 进 行 更 新 
的 传播 工作 。 这 种 方法 的 难点 在 于 ， 现 在 我 们 又 遇 到 如 何 判断 和 解决 冲突 这 个 问题 了 。 在 设计 
一 个 系统 时 ， 我 们 必须 判断 ， 是 在 读 的 时 候 解决 冲突 还 是 在 写 的 时 候 解决 冲突 。 对 于 一 个 分 布 
式 数 据 库 的 设计 者 ， 必 须要 进行 一 个 抉择 一 一 数据 库 应 该 总 是 可 读 的 还 是 总 是 可 写 的 。 
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性 能 增益 。 
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在 Cassandra 中 , 
的 一 致 性 ”， 


选择 是 ， 


总 是 可 写 ， 而 把 判断 冲突 的 问题 留 给 了 读 操 作 ， 从 而 获得 
另 一 种 方案 可 能 会 在 网 络 或 服务 器 发 生 故 障 的 时 候 拒 绝 更 新 操作 。 


一 致 性 并 非 一 个 “要 么 全 有 ， 


LAST 


要么 全 无 问题， 我 们 或 许 应 该 更 精确 地 


时 了 很 好 的 


称 之 为 “可 


姑 为 客户 端 可 以 控制 在 更 新 到 达 多 少 个 副本 之 前 ， 必 须 阻塞 系统 。 
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通过 副本 因 


T (replication factor) 来 调节 


与 之 相对 的 一 致 性 FE 级 别 。 
C (replication factor) ， 你 可 以 决定 准备 牺牲 多 少 性 
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副本 写 入 成 
读 成 功 的 


D e 
KE, 


m 


所 在 


。 这 里 ，Cassandra 和 


， 即 使 有 节点 宕 机 了 ， 


集群 中 传播 到 的 节点 数 ( 更 新 包括 所 有 增加 、 


3 删除 和 更 新 操 
操作 还 必须 设置 一 个 一 致 性 级 别 (consistency level 
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加 本 因 了 征 


参数 决定 了 多 少 


功 才 可 以 认定 写 操作 是 成 功 的 ， 或 者 读 取 过 程 中 读 到 
决定 一 致 性 程度 的 权利 留 给 了 客户 
mU. M 


可 以 设 定 一 致 性 级 别 和 
亲 就 必须 付出 同步 阻塞 操作 的 代价 
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新 完成 才能 成 功 


T 点 prn 
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| i 
示 上 ，Cassandra 一 般 都 不 会 这 么 来 用 ， 
而 且 这 不 是 你 选择 Cassandra 的 初衷 ) e 


仍然 可 以 写成 功 。 


1.3.6 ”Brewer 的 CAP 理 论 


要 理解 Cassandra 的 设计 和 它 所 谓 的 “最 终 一 致 性 


”数据 库 ， FOLE 


FE 级 别 低 于 晶 


性 


需要 了 解 一 下 CAP 理 论 。 


CAP 理 论 由 Eric Brewer 提 出 ， 所 以 有 时 又 被 称 为 Brewer 理 论 。 
2000 年 ， 当 时 在 加 州 大 学 伯克利 分 校 工作 的 Eric Brewer 在 ACM 分 布 式 计算 原理 会 议 上 提出 了 
CAP 理 论 。 依据 这 个 理论 ， 在 一 个 大 规模 分 布 式 数据 系统 中 ， 有 三 个 需求 是 彼此 循环 依赖 的 : 
一 致 性 、 可 用 性 和 分 区 耐 受 性 。 

e 一 致 性 (Consistency) 
PER ate 出 使 用 同样 的 查询 都 可 以 得 到 同样 的 结果 ， 即 使 是 有 并 发 更 新 的 时 候 也 
是 如 此 

e 可 用 性 (Availability) 
所 有 的 数据 库 客 户 端 总 是 可 以 读 写 数据 。 

。 分 区 耐 受 性 (Partition Tolerance) 
数据 库 可 以 分 散 到 多 台 机 器 上 ， 即 使 发 生 网 络 故 障 ， 被 分 成 多 个 分 区 ， 依 然 可 以 提供 服务 。 
Brewer 理 论 是 说 ， 对 ERE 只 能 强化 这 三 个 特性 中 的 两 个 。 这 很 类 似 于 软件 开发 中 
的 名 言 : “你 可 以 让 软件 很 好 ， 很 快 ， 或 者 很 fe. 不 过 三 个 里 面 你 只 能 选择 两 个 。” 
由 于 循环 依赖 关系 ， 我 们 不 得 不 在 它们 之 中 做 出 选择 。 比 如 ， 你 期 望 获得 更 强 的 一 致 性 ， 那 可 
能 就 只 能 拥有 较 低 的 分 区 耐 受 性 ， 除非 你 在 可 用 性 上 做 一 些 让 步 。 
CAP 理 论 在 2002 年 被 MIT 的 Seth Gilbert 和 Nancy Lynch 所 证 明 。 不 过 ， 在 分 布 式 系统 中 你 将 不 得 
不 面 对 网 络 分 区 的 问题 ， 而 且 在 某 些 时 候 ， 机 器 也 常常 出 现 故障 ， 从 而 导致 某 些 节 点 不 可 达 。 
丢 包 同样 是 与 生 俱 来 的 间 题 。 所 以 ， 我 们 可 以 得 到 结论 ， 一 个 分 布 式 系统 必须 尽力 在 网 络 发 生 


分 裂 的 情况 下 继续 工作 (具有 分 区 耐 受 性 ) ， 这 样 我 们 实际 上 只 能 在 剩 下 的 两 个 特性 里 二 选 
一 : 可 用 性 或 是 一 致 性 。 
如 图 1-1 所 示 ， 三 个 特性 没有 相互 交合 的 区 域 。 

可 用 


图 1-1: CAP 理 论 指 出 ， 同 时 只 能 具有 这 三 个 特性 中 的 两 个 


过 图 示 来 观看 每 个 不 同 的 非 关 系 型 数据 存储 系统 在 CAP 图 谱 中 排 在 什么 位 置 ， 可 能 更 有 助 于 
理解 这 个 概念 。 图 1-2 是 在 2009 年 MongoDB 的 创始 人 和 CEO，Dwight Merriman 在 纽约 MySQL 用 
户 组 演讲 的 幻灯 片 的 基础 上 绘制 的 (你 可 以 在 在 http://bit.ly/7r6kRg 查看 这 个 幻灯 片 )。 这 里 ,我 
根据 我 的 研究 修改 了 某 些 系统 在 图 中 的 位 


门 本 章 中 讨论 的 几 种 不 同 数据 库 系 统 的 关注 焦点 。 注 意 ， 图 中 的 数据 库 的 位 置 与 
4 体 配置 有 关 。 正 如 Stu Hood 指 出 的 ， ee 更 用 了 Google 的 同步 
让 本 的 时 候 才 可 以 被 认为 是 一 致 的 系统 ， 否 则 ， 它 应 该 只 能 被 看 做 是 可 用 和 分 区 耐 受 的 系 
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关系 型 : 


MySQL, SQL Server, 


Postgres 
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图 1-2: 数据 库 在 CAP 连 线 上 的 位 置 
ECAP 体 系 中 所 处 的 位 置 和 一 个 存储 机 制 最 初 被 发 明 时 想 要 解决 
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非常 有 趣 的 一 点 是 ， 
的 问题 ， 两 者 并 不 一 


在 这 张 图 里 ， 关 系 型 数据 库 通 常会 
候 (比如 网 线 中 断 ) 都 会 无 法 工作 。 
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这 通常 是 


demort、 


也 有 面向 文档 的 数据 库 。 
这 意味 着 它们 在 网 络 失效 的 时 


于 设置 了 二 不单 主 节点 井 成 的 ， 因 为 主 各 点 可 
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存储 或 是 NoSQL 数 据 库 的 特 ' 


最 后 ， 包 括 Cassandra、Voldemort、 CouchDB 和 Riak 在 内 的 沿袭 自 


性 和 分 区 耐 受 性 2 


组 服务 器 也 可 能 没有 足够 的 机 制 让 它们 在 网 络 分 裂 的 情况 下 能 继续 提供 


Google 的 BigTable 的 设计 的 数据 库 (如 
更 多 地 强调 一 致 性 和 分 区 耐 


生 有 兴趣 ， 可 以 看 一 下 本 书 附录 。 
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向 的 系统 ， 它 较 易 于 管理 ， 
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CAP 中 只 能 三 选 二 


FE 和 可 用 性 ， 


网 络 发 生 分 烈 
心 集群 以 降低 网 络 分 区 发 


容忍 "最终 一 致 性 ”的 场 
修复 意味 着 读 操作 可 以 返回 一 致 的 结果 ， 


到 克 意 味 着 什么 呢 ' 


E 的 平均 不 可 用 时 间 大 
站 是 在 讨论 一 些 已 经 非 
己 的 需求 来 调节 系 


这 意味 着 你 很 可 


E 最终 ”实际 也 就 是 毫秒 
， 你 也 可 以 达到 强 一 臻 


介 段 提 区 的 分 布 式 事务 。 也 就 是 说 ， 如 
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但 实际 系统 的 区 分 
位 置 就 并 不 确切 。 
如 果 Chubby (BigTablety 
间 的 话 ，BigTable 将 * 


变 得 “不 可 用 ” 


ARAMES sim 
Ae ERIS 


可 以 通过 改进 系统 架构 ， 设 置 数据 分 
但 如 果 有 节 点 发 生 故 障 ， 仍 然 会 有 部 分 数据 无 法 访问 (不 可 用 ) 。 


你 的 系统 所 


> 里 的 介 i* 绍 是 要 给 出 一 个 概观 ， 
并 不 是 这 
Google’ 声称 BigTable 是 “高 可 用 的 ”， 
FCU EET HS ESL ARI 


论文 第 4 ) 


意味 着 你 的 系统 很 可 外 
rs 1 的 规模 扩展 


EB 被 限制 在 一 个 数据 中 
展 ， 那 么 可 以 选择 CA 取 


来 提升 可 扩展 性 。 你 


返回 不 太 精 确 的 数据 ， 但 系统 将 始终 可 用 ， 即 使 
也 是 如 此 D DNS TIERRA RARI RIT. 这 类 系统 可 扩展 
fi H.E 


闵 便 从 比较 高 的 维 度 来 对 这 些 此 系统 进行 比较 ， 
么 绝对 。 比如 ，Google 的 BigTable 在 这 之 个 体系 中 究竟 应 该 放 在 什么 


E 


文件 后 面 的 部 分 却说 ， 


等 续 不 可 用 超过 一 段 时 


说 ，“ 我 们 没有 考虑 数据 


POPER 


V E E a a A EE 
出 “BigTable 不 想 解 决 o 
发 现 确定 一 个 数据 库 的 CAP 到 底 在 什么 样 


1.3.7 面向 行 


ECT" 


EIE "AUR. CFFE 
于 这 些 不 太一 致 的 信息 ， 你 可 以 
ERA HRS 


Cassandra? 
而 是 一 个 多 维 
〈 像 关系 模型 那样 ) 和 其 他 行 有 
以 ， 虽 然 说 C 
个 有 索引 的 、 面 同行 的 存储 系统 ， 第 3 章 
Cassandra 的 一 


不 考虑 具 
Cassandra 的 数据 存 人 


$ 


修改 服务 特性 
fF。 对 于 使 用 
行 了 ， 不 会 造成 服务 中 断 。 


这 不 是 说 你 不 ER STERR > 


Tr 


当然 ， 
得 首先 设计 一 


双 常 被 看 做 是 一 种 “面向 列 ” 的 数据 库 ， 
稀 玻 哈 希 表 。“ 稀 玻 " 意 味 着 任何 一 行 都 可 能 会 有 一 列 或 者 几 列 ， 但 每 行者 
样 的 列 。 每 行 都 有 一 个 唯一 的 键 值 ， 


这 也 并 不 算 错 。 它 的 数据 结构 不 是 关系 型 的 ， 
定 


不 一 
用 于 进行 数据 访问 。 所 


assandra 是 面向 列 的 数据 | EDE 十 么 错 ， 但 更 确切 地 说 ， 应 该 把 Cassandra 看 做 是 一 


体 的 应 | 


用 就 把 关系 型 模型 看 做 是 最 佳 解决 方案 的 结论 下 得 也 为 时 尚 早 。 


者 结构 基本 可 以 看 做 是 一 个 多 维 哈 希 表 。 这 意味 着 从 


的 应 用 。 


Cassandra 的 应 用 ， 如 果 业 务 发 生变 化 了 ， 


查询 数据 ， 然 后 提供 这 些 数据 is 可 以 了 。 


1.3.8 ”无 schema 


你 需要 定义 Cassandra 的 外 层 容 容器 keyspace， keys 


Z 


ARR: Ee RU ELS TH 


Cassandra E , 


13.9 ”高 性 


Cassandra 在 设计 之 初 就 特 
多 个 数据 中 心 的 大 量 这 类 服务 器 上 运行 。 它 可 以 一 致 而 且 无 颖 地 扩展 到 数 百 台 机 器 


H 


也 可 以 提供 非常 高 的 SAN 量 。 而 如 果 你 增加 更 多 的 服务 器 ， 你 还 可 以 继续 保持 Cassandra 所 有 
的 特性 而 无 需 牺牲 性 


外 ， 数 据 表 都 是 稀 踊 的 ， 你 可 
f 尔 不 需要 使 用 昂贵 的 数据 建 模 工 具 
需要 按照 查询 的 需要 来 进行 建 模 ， 之 后 提供 数据 给 应 用 即 可 


能 


HE 


详细 地 解释 这 个 问题 。 我 把 面向 数据 当 
个 特征 ， 因 为 在 非 关 系 型 模型 里， 


有 多 种 易于 可 视 化 和 使 用 的 数据 模型 ， 


e 


改 是 


和 具体 数据 结构 或 是 你 的 记录 包含 哪些 具体 字段 。 这 符 别 适 合 处 于 草创 阶段 ， 还 在 不 断 ? 


2 m 
SJE 
而 且 也 特别 适合 应 用 在 敏捷 7 1 不 必 进 行 长 达 数 月 的 预先 分 


相反 ，Cassandra 需 要 你 换个 角度 看 数据 。 在 RDBMS 
个 完整 的 数据 模型 ， 然 后 考虑 查询 方式 ， 而 在 Cassandra 里 ， 伯 


(需要 在 运行 中 增加 或 删除 某 些 字段 就 


E, fW 


可 以 首 移 思考 如 何 


pace 中 包含 了 若干 列 族 。keyspace 在 逻辑 上 是 容 


生 的 命名 空间 。 列 族 定义 了 相关 的 数据 的 名 字 和 它们 的 排序 方式 。 
以 直接 使 用 需要 的 列 来 添加 数据 ， 不 需要 预先 定义 列 的 形式 。 在 


EE 。 


1.4 ” Cassandra 来 自 何 方 


Cassandra 数 据 存 储 系 统 是 一 个 Apache 开 源 项 
Facebook 为 了 解决 消 


方法 难以 解决 的 超大 数据 量 存储 的 可 扩展 性 问题 


本 、 


= E 


力量 。 之 后 ， 


也 不 需要 写 出 复杂 的 包含 join 的 查询 语句 ， 只 


别 考虑 了 要 充分 利用 多 处 理 器 和 多 核 计 算 机 的 性 能 ， 并 考虑 在 分 布 于 


除 此 之 


存储 数 TB 
多 数据 。 Cassandra 已 经 显示 出 了 高 负载 下 的 良好 表现 ， 在 一 一 个 非常 普通 的 工作 站 上 ， Cassandra 


TT http://cassandra.apache.org 。2007 年 
时 收 件 箱 的 搜索 问 题 而 开始 了 Cassandra 项 目 ， 因 为 当时 他 们 遇 到 了 传统 的 


具体 说 来 ， 项 目 团队 需要 处 理 大 量 的 消息 


副 


消息 的 反 向 索引 等 不 同形 式 的 数据 ， 需要 处 理 和 多 随机 读 和 并 发 随机 写 操作 。 


队 由 Jeff Hammerbacher WE, TZ» T f 
队 的 工程 师 Prashant Malik。 源 代码 在 200 
项 目 。 但 2008 年 作为 Google Code 的 项 目 时 ， 
在 2009 年 3 月 ，Cassandra 成 为 了 一 


了 Apache 顶 级 项 目 。 


一 人 Facebook 的 Lakshman 和 Malik 写 的 关于 


还 只 有 Facebook 的 工程 师 在 更 新 项 


icu) 715 Avinash 


Lakshman, Karthik Ranganathan 和 
8 年 7 月 公布 到 Google Code 上， 成 为 了 一 个 开源 


未 形成 社区 


个 Apache 贱 化 器 项 目 ， 并 在 2010 年 2 
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FCassandra 的 论文 “A Decentralized Structured 


成 为 


Storage System” 可 以 在 这 里 访问 http:/www.cs.cornell.edu/projects/ladis2009/papers/lakshman- 


ladis2009.pdf 。 
如 今 的 Cassandra 似 乎 有 大 


[科学 概念 和 信条 


言 奉 的 标准 、 


Cassandra 如 何 得 名 的 
总 有 人 问 我 Cassandra 从 何 得 名 的 , 


的 。 


在 希腊 神话 里 ，Cassandra 是 特 洛 


有 工具 还 不 外 解决 的 实际 


o 


问题 的 。 它 了 解 之 前 方法 的 


让 我 有 点 奇怪 。 当 我 听 到 这 个 项 目的 时 候 ， 


FEJ 


于 阿波 


她 依然 可 以 精确 地 预知 未 来 ， 但 是 


AK, 


m RE 


REAN A 


罗 给 了 她 预见 未 来 的 能 


EPriam 和 Hecuba 王 后 的 女儿 ° Cassandra3E à 
o - 当 她 拒绝 阿波 罗 的 爱慕 的 时 候 ， 遭 到 他 的 诅咒 


FERE. [Cassandra 新 很 激进 ， 但 它 植 根 于 很 多 用 < 和 
° Cassandra 是 一 个 实用 主义 的 数据 库 ， 它 并 
示 新 立 异 ， 由 不 和 基站 个 天 才 的 玩物 。 它 是 被 设计 用 来 解决 现 


局 限 性 ， 并 专注 于 新 的 面向 大 规模 数据 的 


名 
首先 想到 的 问题 。 不 过 这 确实 手 有 趣 的 ， 特 别 是 对 于 这 个 数据 库 ， 它 的 名 字 确 实 是 有 讲究 


常 美丽 ， 


神 论 (Delphi Oracle) , 


巧 、 功 能 
1.5.1 大 规模 部 署 


会 有 任何 人 相信 她 。Cassandra 预 知 了 她 的 特洛伊 城 


字 并 不 是 我 


IU 


上 这 一 悲剧 。 分 布 式 数据 库 就 据 此 命名 。 我 怀疑 这 个 MR UR 


Oracle 也 是 用 先知 命名 的 数据 库 。 
1.5 ”Cassandra 的 应 用 场景 


你 可 能 不 会 
多 精巧 设计 部 
点 。 这 些 特 


ENRE 


a. 看 吐 怖 求 以 及 SLA 等 
儿 种 关系 型 数据 库 可 以 很 好 地 应 付 你 的 流量 ， 


简单 地 说 ， 这 是 因 


但 是 ， 单 主 很 多 情况 下 可 外 


F 洗 的 衣服 ， 


Morro our 对 Cassandra 的 长 处 有 了 一 定理 解 。 尽 管 Cassandra 设 计 精 
工作 。 所 以 ， 这 里 我 们 来 介 绍 一 下 Cassandra 最 擅长 的 4 领域 。 


但 是 
你 的 这 


1.5.2 ” 写 密集 、 统 计 和 分 析 型 工作 


吏 用 Cassandra 的 产品 都 用 


发 生 并 伴 


是 Cassandra 很 好 的 应 用 场景 


小 卡车 显然 不 适合 这 种 工作 。Cassandra 的 很 
一 致 性 、P2P 协 议 、 无 颖 扩展 等 ， 这 些 都 是 Cassandra 的 卖 
reru 点 工作 时 部 是 没有 意义 的 更 无 法 实现 它 的 全 部 能 力 。 


E 正 是 我 们 需要 的 。 所 以 ， 你 需要 做 一 些 评估 。 考 
。 关 于 评估 没有 什么 硬性 的 指标 和 要 求 ， 但 如 果 你 认为 
提供 不 错 的 性 能 ， 那 可 能 选 关 系 型 数据 库 更 好 ， 
于 在 单机 上 运行 ， 你 也 更 熟悉 。 


cik 


dt 


如 采 你 认为 需要 至 少儿 个 节点 才能 支撑 你 的 业务 ， 那 Cassandra 就 是 个 不 错 的 选择 。 如 遇 
可 能 需要 数 十 个 节点 ， 那 Cassandra 可 能 就 是 个 很 棒 的 选择 了 。 


应 用 的 读 写 比 例 ，Cassandra 是 为 优异 的 写 吞 吐 量 而 特别 优化 的 。 


于 存储 用 户 状态 更 新 、 社 交 了 网 络 、 建 议 / 评 价 以 及 应 用 统计 
因为 这 些 应 用 大 都 是 写 多 于 读 的 ， 并 且 更 新 可 能 随时 


有 突 发 的 峰值 。 事 实 上 ， 
Cassandra 的 主要 特性 。 


支撑 应 用 负载 需要 征 高 的 多 客户 线程 并 发 写 性 能 ， 这 正 是 


，Cassandra 已 经 被 用 于 开发 了 


IRP H 
个 用 


据 库 ， 


当 搜索 的 反 向 索引 ， 以 及 一 


多 种 不 同 的 应 用 ， 包 括 一 个 窗口 化 的 时 间 序 列 数 


个 分 布 式 任务 优先 级 队列 。 


A 


1.5.3 ”地 区 分 布 


Cassandra 直 接 支 持 多 地 分 布 的 数据 存储 。Cassandra 可 以 很 容易 配置 成 将 数据 分 布 到 多 个 数据 中 
心 的 存储 方式 。 如 果 你 有 一 个 全 球 部 署 的 应 用 ， 那 么 让 数据 贴近 用 户 会 获得 不 错 的 性 能 收益 ， 
Cassandra 正 适合 这 种 应 用 场合 。 

1.5.4 ”变化 的 应 用 

如 果 你 正在 “初创 阶段 >， 业 务 会 不 断 改进 ，Cassandra 这 种 没有 Schema 的 数据 模型 可 能 更 适合 
你 。 这 让 你 的 数据 库 和 全 能 更 好 地 跟 上 业务 改进 的 步伐 。 


1.6 ” 谁 在 使 用 Cassandra 


不 管 怎么 说 ，Cassandra 还 是 处 在 初级 阶段 ， 在 本 书写 作 的 时 候 也 还 没有 达到 1.0 发 布 的 水 平 。 没 
有 什么 易 用 的 图 形 化 的 管理 工具 可 用 ， 社 区 之 中 ， 也 还 有 一 些 内 部 和 外 部 的 有 争议 的 设计 il 
题 。 但 是 即使 是 在 开发 的 早期 ， 它 作为 一 种 有 发 展 前 景 、 可 用 而 且 稳定 的 数据 存储 系统 ， 已 经 
被 很 多 知名 的 大 公司 用 到 了 产品 之 中 。 

一 改 实际 上 ， 有 一 种 被 称 为 “< 从众 雇 误 ”的 逻辑 雇 误 ， 即 那些 很 流行 、 很 大 众 化 的 东西 就 被 认 
为 是 对 的 。 Cassandra JERE -A KARHI EIE, 特别 是 在 过 去 一 年 里 。 不 过 ， 我 仍然 
27 这 些 在 不 同 公 司 的 不 同 产品 中 的 应 用 至 少 可 以 证 明 Cassandra 是 有 用 的 ， 而 且 已 经 随时 可 

正在 使 用 Cassandra 的 公司 还 在 增长 中 ， 这 些 公 司 如 下 。 
* Twitter 正在 使 用 Cassandra 做 数据 分 析 。 在 一 篇 广 为 引 用 的 博客 里 
(http://engineering.twitter.com/2010/07/cassandra-at-twitter-today.html ) ，Twitter 的 主要 

Cassandra 工 程 师 Ryan King 解 释 道 ，Twitter 决 定 不 会 像 开 始 计划 的 那样 使 用 Cassandra 作 为 其 

主要 的 tweets 存 储 系 统 ， 但 还 会 将 Cassandra 用 于 多 个 不 同 的 地 方 ， 包 括 : 实时 分 析 ， 地 理 和 

位 置信 息 ， 以 及 全 部 用 户 信息 的 数据 挖掘 。 

e Mahalo 使 用 Cassandra 作 为 其 主要 的 近 实 时 数据 存储 。 

。 Facebook 还 在 使 用 Cassandra 作 为 其 收 件 箱 的 索引 ， 不 过 使 用 的 是 一 个 非 开 源 分 文 。! 
译注 1: 根据 Facebook 的 工程 师 团 队 在 2010 年 11 月 对 他 们 发 布 的 新 消息 系统 的 介绍 ， 新 消息 系统 是 基于 HBase 而 非 
Cassandra 的 。 

。 Digg 也 使 用 Cassandra 作 为 主要 的 近 实 时 数据 存储 。 

。 Rackspace 使 用 它 进 行 云 服 务 、 监 控 和 日 志 存 储 。 

。 Reddit 使 用 它 作 为 持久 化 的 缓存 。 

。 Cloudkick 使 用 Cassandra 用 于 监控 统计 和 分 析 。 

e Ooyala 使 用 Cassandra 存 储 和 服务 近 实 时 的 视频 分 析 数 据 。 


SimpleGeo 使 用 


Cassandra 作 为 实 


时 位 置信 息 的 主要 存储 系统 。 


。 Onespot 使 用 它 作 为 部 分 主要 数据 的 存储 系统 。 

Cisco 和 Platform64 也 在 使 用 Cassandra， 而 且 Comcast 和 bee.tv 也 准备 使 用 Cassandra 来 为 移动 设备 

提供 网 上 的 个 性 化 电视 服务 。 其 实 还 有 更 多 。 最 后 要 说 的 是 ， 这 些 应 用 都 是 真实 存在 的 ， 各 种 

不 同 领域 的 公司 都 找到 了 Cassandra 的 应 用 场合 并 获得 成 功 。 在 本 书写 作 的 时 候 ， 最 大 的 

Cassandra 应 用 来 自 于 Facebook， 他 们 在 100 多 台 机 器 上 存储 了 超过 50 TB 的 数据 。 

很 多 公司 都 在 不 同 的 产品 项 目 里 评估 Cassandra， 而 由 Apache Cassandra 项 目的 主席 Jonathan Ellis 

等 人 成 立 的 公司 Riptano 也 于 2010 年 4 月 成 立 了 。 随 着 更 多 的 特性 、 更 好 的 工具 以 及 技术 支持 方案 

的 加 入 ， 可 以 预期 会 有 更 多 的 人 加 入 使 用 Cassandra 的 行列 。 

17 小 结 

本 章 我 们 介绍 了 Cassandra 的 特征 、 历 史 和 主要 特性 。 我 们 了 解 到 了 哪些 公司 使 用 了 Cassandra 和 

uM 的 。 我 们 还 回顾 了 数据 库 技 术 的 发 展 史 ， 以 此 可 以 从 历史 角度 看 竺 Cassandra 的 价 

第 2 章 ”安装 Cassandra 

SRM ME 读者 ， 我 们 将 从 安装 Cassandra 开 始 。 因 为 Cassandra 带 来 了 很 多 新 词汇 ， 安 
过 程 中 可 能 会 有 些 我 们 不 太 熟 悉 的 词 。 不 过 不 用 担心 ， 本 章 的 目的 是 快速 搭建 一 个 简单 可 用 

的 系统 。 先 搭 起 一 个 环境 。 之 后 我 们 再 在 这 个 基础 上 从 更 大 的 背景 下 理解 Cassandra 。 

2.1 安装 二 进 制 包 

Cassandra 可 以 从 其 官方 网 站 http:Wcassandra.apache.org 上 下 载 。 只 要 单 击 首页 上 的 下 载 最 新 版 本 


2.1.1 解压 缩 


之 类 的 工具 。 


的 链接 就 可 以 下 到 gzip) 压缩 的 tar 包 。 
其 中 x.x.x 是 版 本 号 


始 方 法 就 是 下 载 已 
° f£Linux F, gzip^ 
WinZip 是 商业 软件 ， 如 果 需 要 免费 软件 的 话 ， 可 以 使 用 
http://www.7-zip .org 下 载 。 


。 压缩 包 大 约 10 MB 大 。 


已 经 编译 好 的 二 ° 你 


有 发 布 版 预 装 的 


进 制 包 
LA 


-一 


应 该 是 所 


使 JAEN Y R o 


cassandra-x.x.x BJ E 


你 可 能 需要 分 两 步 来 打开 压缩 文件 


录 ， 你 就 可 以 运行 Cassandra 了 。 


2.1.2 ”里面 有 什么 


解 


rom 


开 tar 包 之 后 ， 你 


就 可 以 看 到 Cassandra 的 二 进 制 发 布 里 


和 tar 包 ， 


可 以 使 


用 任何 常规 的 ZIP 工 具 来 解 天 


编译 好 的 二 进 制 包 命名 为 apache-cassandra-x.x.x-bin.tar.gz , 


压缩 


一 旦 得 


而 在 Windows 下 ， 你 可 能 需要 一 个 WinZip 


7-Zip， 这 个 工具 


可 以 从 


到 了 一 个 名 为 apache- 


面 的 各 个 目录 了 。 现 在 让 我 们 先 来 花 点 


时 间 看 看 里 面 都 有 些 什么 。 


e bin 


bin 目 录 包 含 了 用 ee 
运行 nodetool 的 脚本 ， 用 于 监 
深入 介绍 nodetool 。 


e conf 


SÍT (CLI) 客户 端 。 这 个 目录 中 还 包含 
进行 各 种 管理 操作 。 在 后 面 我 们 会 


这 个 目录 还 EA 含 Cassandra 的 数据 文件 SSTable 与 JSON 相 互 转换 的 脚本 。 


这 个 目录 在 源码 包 里 也 位 于 这 个 


通过 storage-con 


件 有 三 个 主要 功能 : 


Bb; 还 有 一 些 文件 用 


e interface 


Python、Perl 以 及 C# 等 


e javadoc 


个 目录 包含 了 Java 的 JavaDoc 


以 ， 


* lib 


curs collections 项 目 
与 Cassandra 的 交互 。 


于 鉴 权 相关 设置 ; 
在 第 6 章 里 ， 我 们 在 介绍 如 何 配 


对 于 0.6 和 之 前 版 本 的 Cassandra， 这 个 
述 Cassandra 支 持 的 远程 调用 (RPC) 
的 生成 客户 端的 方法 。 要 快速 


Cassandra 时 会 看 到 如 何 使 


各 各 


注释 直接 生成 的 ， 并 不 是 一 个 非常 完善 的 文档 。 
个 不 错 的 途径 。 而 且 ， 虽 然 Cassandra 是 个 非常 优 
义 ， 你 可 能 会 发 现 JavaDoc 的 帮助 非常 有 限 。 E 
有 效 一 些 。 如 果 还 是 要 阅读 JavaDoc， 


个 目录 包含 Cassandra 运 行 所 需 的 外 部 库 。 gen 
， 以 及 一 些 Apache 的 公共 


2.2 ”从 源码 编译 


Cassandra 使 用 Apache Ant 作 为 编译 脚本 语言 ， 


Ivy ° 


< 公 你 可 以 从 http://ant.apache.org 下 载 Ant， 只 是 要 编译 Cassandra 的 话 ， 


包含 了 配置 Cassandra 实 例 所 需 的 配置 文件 ， 这 些 配 置 文 


fxml 文 件 ， 你 可 以 配置 keyspace 和 列 族 ， 
最 后 log4j.properties 文 伯 i 来 配置 日 
H 用 TA 门 。 


cassandra.thrift 。 


用 Thrift 格 式 定 义 ， 并 


以 此 创建 存储 系 
志 级 别 等 设置 的 。 


这 个 文件 用 于 描 
提供 了 一 个 简单 


Cassandra 所 支持 的 所 有 操作 只 要 使 用 一 个 
打开 这 个 文件 就 行 了 。 你 可 以 看 到 Cassandra 通 过 才 这 个 接口 支持 Java、C++、PHP、Ruby、 


动 生成 的 文档 站 点 。 注 


Ivy Xt T Ant, JF BH. 


"ES 


少 tools.jar 的 话 ， PHA 是 缺 


E" 如 采 你 想 下 载 最 


hii 羊 源码 还 需要 1.6.0 _20 以 上 版 4 


的 JDK， 要 么 是 环境 变 


MIRA, 


那么 可 以 从 Hudson 中 获取 代码 ， 


持续 集成 工具 。 最 


Pr 


RES 


的 源 代 码 和 集成 测试 信息 
http://hudson.zones.apache.org/hudson/job/Cassandra/ ° 


还 可 以 使 用 以 下 命令 下 


普通 文本 编辑 器 


意 ，JavaDoc 仅 仅 是 从 Java 源 码 里 的 
了 解 代码 的 结构 ， 这 可 能 还 算是 
， 但 代码 之 中 的 注释 却 并 不 多 ， 所 
V ova EEG, 直接 阅读 class 文 件 可 能 更 
Fjavadoc/index.html 文 件 即 可 。 


看 包含 nm. 
sn 不 包含 Thrift 和 Avro RPC/É, 


重 件 来 进行 依赖 关系 管理 。 


不 需要 单独 


下载 


的 JDK ， 而 不 仅 是 JRE。 如 果 你 看 到 Ant 缺 
量 指向 了 错误 的 路 径 。 


Hudson 是 Cassandra 使 用 的 


臣下 载 Cassandra 源 码 的 主干 分 支 (只 读 ) : 


>git clone git://git.apache.org/cassandra.git 


A 


as, 
us 


— u? GitzeLinus Torvalds 
íT, WAndroid ` Fedora ` Ruby on Rails ` Perl 43i H 


进一步 介绍 ) 项 使 用 


HH? 


ABJRIT 8 HLinuxpPATZT A 


如 果 你 使 用 了 诸如 Ubuntu 这 检 


要 在 终端 输入 >apt-get install git 就 可 以 装 好 


http://git-scm.com/ ° 


id 以 处 理 好 所 有 依赖 关系 ， 


i 1 要 输入 如 下 命令 


。 只 要 确定 你 在 源 代 码 的 根 目 
文件 的 内 容 执行 默认 的 编译 目标 。 后 面 的 事情 就 全 


发 的 源 代 码 管理 系统 。 具 目 前 非 
a (第 8 章 会 
的 Linux 发 布 版 ， 非常 容易 获得 Git 。 只 


WV 并 执行 ant 命令 就 行 ，ant 会 根据 当 


开始 使 用 了 。 如 果 要 进 


步 了 解 ， 可 以 访问 


一 旦 你 获取 了 源 代码 ， 编 译 Cassandra 就 是 一 件 非常 容易 的 


当前 路 径 中 的 build.xml 


Bl RJ: 


由 Ant 和 Ivy 负 责 了 。 要 运行 Ant 开 始 编译 源 


>ant 


就 这 么 简单 ， Ivy 会 获取 所 有 必要 的 依赖 库 


切 


路 径 设置 是 否 正确 ， 是 否 有 所 有 需要 的 
过 Hudson 的 集成 测试 报告 来 查看 下 载 的 产 代 码 是 否 


正常 ， 你 可 以 看 到 一 


车，Ant 会 编 证 


对 大 约 350 个 源 文件 ， 并 执行 测试 。 如 果 一 


条 BUILD SUCCESSFUL 消息 。 如 果 出 现 意 外 的 话 ， 首 先 检查 你 的 各 种 


Cassandra。 你 可 以 通 


Aaa 


A 如 果 你 希望 看 到 编译 过 程 中 的 详细 信息 ， 可 以 在 运行 Ant 的 时 候 加 上 -v 选项 ， 这 样 它 


[ 具 的 最 新 有 版本， 以 及 是 否 下 载 了 一 个 稳定 版 本 的 


会 输出 每 一 个 操作 的 详细 信息 


224 ”其 他 编译 目标 


要 编译 服务 器 ， 


也 感 兴趣 。 


e test 


这 个 目的 用 于 生成 使 用 


这 个 目的 用 于 生成 Python 用 户 使 


o 


只 要 运行 上 面 的 命令 就 可 以 了 。 而 这 里 其 实 还 有 一 


十 用 户 来 说 ， 这 可 能 是 个 最 有 用 的 目的 ， 


* gen-thrift-java 


。 gen-thrift-py 


* build-jar 


于 生成 用 来 发 布 的 Java 存 档 ( 


Java 和 Cassandra 交 互 的 Apache Thrift 客 户 端 接 


[uy 


可 以 正常 编译 


其 他 的 编译 目的 ， 你 或 许 


JH Thrift 


(JAR) 文件 ， 


生发 现 不 少 uc on 列子 。 


Pimi H o 


4 BARTIA RITM » E AAMAS 


Iu 


可 以 直接 执行 >ant jar ? 308 


并 在 build 目 录 生成 一 个 名 为 apache-cassandra-x.x.x.jar 的 文件 。 
2.2.2 ”使 用 Maven 编 译 


就 可 以 完成 编译 过 程 ， 


Cassandra 的 最 早 的 作者 们 似乎 并 不 怎 
Maven POM 文 件 。 不 过 ， 由 于 赵 
工具 支持 也 日 

要 使 用 Maven 编 译 


Ke 


渐 强大 ， 如 果 你 非常 想 用 Maven 的 话 


H, 


的 Java 天 


而 且 


么 关注 Maven， 所 以 早期 的 Cassandra 版 本 里 也 没有 包含 
发 者 开始 从 Ant 转 向 Maven， 


Maven 的 IDE 


可 以 用 一 个 外 部 贡献 的 pom.xml 文 件 


源 代 码 ， 需 要 在 &ltcassandra-home>/contrib/maven H 


Lo 


录 执 行 这 条 命令 


$ mvn clean install 


如 果 你 使 用 Maven 编 译 遇 到 困难 的 话 ， 可 能 需要 手工 下 载 一 些 需要 的 JAR 包 。 对 于 0.6.3 版 本 来 
说 ， 因 为 一 些 依赖 关系 ，Maven POM 文 件 是 无 法 直接 使 用 的 ， 比 如 libthriftjar 在 Maven 仓 库 中 就 
不 可 用 。 
ka “因为 Cassandra 的 开发 者 很 少 使 用 Maven， 所 以 Maven 也 缺少 强 有 力 的 支持 。 也 就 是 说 ， 
你 得 小心 使 用 Maven， 因 为 Maven POM 经 常 是 不 可 用 的 。 
2.3 ”运行 Cassandra 
在 Cassandra 的 早期 版 本 中 ， 运 行 Cassandra 服 务 器 之 前 需要 调整 使 用 Ivy 来 设置 环境 变量 。 但 现在 


HE 


开发 者 们 已 经 做 了 一 些 非常 


和 Sun JDK 上 进行 了 测试 。 你 可 以 使 


要 JDK 的 话 ， 


2.3.1 


ERI 使 得 


wd Cassandra 需 要 J2SE JDK6， 最 好 是 


在 Windows 平 台 上 运行 Cassandra 


只 要 下 载 了 二 进 制 包 或 是 下 载 了 源码 包 编译 之 后 ， 


我 们 可 以 和 


1.6.0_20 或 是 更 
>java-version 这 条 命令 来 
可 以 从 http://java.sun.com/javase/downloads 下 载 。 


地 直 


Z 


新 的 版 了 


接 启 动 Cassandra ° 


检 


就 可 以 运行 Cassandra 服 务 器 了 。 


K 。Cassandra 已 经 在 Open JDK 
查 Java 的 版 本 。 如 有 果 需 


首先 ， 需 要 设置 JAVA_HOME 环境 变量 。 要 在 Windows 7 上 设置 环境 变量 ， 需 要 单 击 “开始 ” 按 

钮 ， 然 后 在 “我 的 电脑 ”上 点 右键 。 选 择 “ 高 级 系统 设置 >， 然 后 单 击 “环境 变量 ..………. ”按钮 。 单 

击 “ 新 建 ..…..…. ”按钮 ， 创 建 一 个 新 的 系统 变量 。 在 变量 的 名 称 域 输入 JAVA_ HOME o 在 变量 的 值 域 

输入 JDK 的 安装 。 可 能 是 类 似 C: \Program Files\Java\jdk1.6.0_20 的 东西 。 这 里 ， 你 是 在 创建 
个 新 的 环境 变 所 以 需要 重新 打开 一 个 终端 窗口 才能 让 新 设置 的 环境 变量 生效 。 要 确定 环 

境 变 量 是 否 设 置 妥当 了 ， 在 新 的 终端 窗口 输入 >echo %JAVA_HOME%。 输 出 的 值 就 是 你 设置 的 

环境 变量 。 

第 一 次 启动 服务 器 时 ，Cassandra 会 在 系统 TORT HK ° 第 一 个 是 C:\varlib\cassandra，， T 

目录 用 于 存放 一 些 称 commitlog 的 数据 文件 。 男 一 个 是 C:\var\log\cassandra, 在 这 个 录 里 ， 

志 会 写 到 名 为 system.log 的 文件 中 去 。 如 果 你 遇 到 什么 问题 ， 可 以 查看 这 些 目录 中 的 内 容 ， xn 

看 到 底 发 生 了 什么 。 如 果 你 在 党 试 多 个 不 同 版 本 的 Cassandra， 并 且 不 担心 丢掉 数据 的 话 ， 可 以 

直接 删除 这 些 目录 再 像 上 次 启动 系统 一 样 重新 启动 系统 。 

2.3.2 ”在 Linux 下 运行 Cassandra 

在 Linux 下 运行 Cassandra 和 在 Windows 下 区 别 不 大 。 首 先 确 定 JAVA_HOME 环境 变量 设置 到 

1.6.0_20 或 是 更 新 版 本 的 JDK 上 。 然 后 用 gunzip 打 开 gzip 压 缩 的 Cassandra 的 tar 包 。 最 后 ， 创 建 两 

个 目录 用 于 存放 Cassandra 的 数据 和 日 志 ， 并 设置 恰当 的 权限 ， 如 下 所 示 : 


ehewittQmorpheus$ cd /home/eben/books/cassandra/dist/apache-cassandra- 
0.7.0-betai 

ehewittQmorpheus$ sudo mkdir -p /var/log/cassandra 

ehewittQmorpheus$ sudo chown -R ehewitt /var/log/cassandra 

ehewittQmorpheus$ sudo mkdir -p /var/lib/cassandra 

ehewittQmorpheus$ sudo chown -R ehewitt /var/lib/Cassandra 


当然 ， 对 于 你 来 说 不 是 ehewitt ， 应 该 替换 成 你 自己 的 用 户 名 。 
2.3.3 ”启动 服务 器 
不 论 在 任何 操作 系统 中 ， 启 动 Cassandra 服 务 器 都 要 在 终端 窗口 里 ， 进 入 到 解压 压缩 文件 得 


到 的 


&ltcassandra-directory»/bin 目录 中 去 ， D THIS a 。 对 于 第 一 次 安装 的 系统 ， 


你 应 该 看 到 差不多 如 下 的 日 志 内 容 : 


eben@morpheus$ bin/cassandra -f 


INFO 13:23:22,367 DiskAccessMode 'auto' determined to be standard, 
indexAccessMode is standard 

INFO 13:23:22,475 Couldn't detect any schema definitions in local storage. 

INFO 13:23:22,476 Found table data in data directories. 

Consider using JMX to call org.apache.cassandra.service.StorageService 
. loadSchemaFromYaml ( ) 

INFO 13:23:22,497 Cassandra version: 0.7.0-beta1 

INFO 13:23:22,497 Thrift API version: 10.0.0 

INFO 13:23:22,498 Saved Token not found. Using qFABQw5XJMvs471g 

INFO 13:23:22,498 Saved ClusterName not found. Using Test Cluster 

INFO 13:23:22,502 Creating new commitlog segment /var/lib/cassandra/commitlog/ CommitLog-1282508602502.10g 

INFO 13:23:22,507 switching in a fresh Memtable for LocationInfo 
at CommitLogContext( file-z'/var/lib/cassandra/commitlog/CommitLog- 
1282508602502.10g', position-276) 

INFO 13:23:22,510 Enqueuing flush of Memtable-LocationInfoQ29857804(178 
bytes, 4 operations) 

INFO 13:23:22,511 Writing Memtable-LocationInfo29857804(178 bytes, 4 
operations) 

INFO 13:23:22,691 Completed flushing /var/lib/cassandra/data/system/ 
LocationInfo-e-1-Data.db 

INFO 13:23:22,701 Starting up server gossip 

INFO 13:23:22,750 Binding thrift service to localhost/127.0.0.1:9160 

INFO 13:23:22,752 Using TFramedTransport with a max frame size of 
15728640 bytes. 

INFO 13:23:22,753 Listening for thrift clients... 

INFO 13:23:22,792 mx4j successfuly loaded 

HttpAdaptor version 3.0.2 started on port 8081 


Aa 


E» -和 参数 告诉 Cassandra 停 留 在 前 台 ， 而 不 是 作为 一 个 后 台 进 程 运 行 ， 这 样 服务 器 的 日 志 


息 了 ， 这 对 于 测试 来 说 非 


就 会 输出 到 标准 给 出 来 我 们 也 就 可 以 在 终端 窗口 看 到 这 些 信 


祝贺 你 ! 你 的 Cassandra 服 务 器 应 该 已 经 运行 起 来 了 ， 并 且 得 到 了 一 个 监听 9160 端 口 的 ， 名 
Test Cluster 的 单 节点 Cassandra 集 群 了 。 


A a 


| 以 保障 Cassandra 每 一 个 小 版 本 升级 和 每 一 个 主 版 本 升 


HE 


是 小 版 本 的 升级 ) ， 你 仍 


级 后 都 可 以 继续 读 取 原 有 的 数据 。 但 是 ， 在 版 本 升级 时 (即使 
确保 已 经 完全 提交 并 清空 所 有 commit log 。 


如 果 你 有 较 早 的 Cassandra 版 本 ， 那 么 可 能 需要 现在 就 请 空 这 些 数据 目录 


常 有 


为 


需要 


只 要 启动 并 运行 


以 删除 /var/ib/cassandra 和 /var/log/cassandra 两 个 目录 。 


， 这 
那个 已 有 的 系统 就 可 以 了 。 如 果 你 已 经 删除 了 旧 的 Cassandra， 并 希望 重新 从 零 开 始 ， 那 么 本 


24 ”使 用 命令 行 界面 的 客户 端 


现在 ， 你 已 经 # 


Linux Fa 信安 


命令 行 束 可 以 了 。 而 帮 


在 Windows 下 ， 访 问 Cassandra 的 安装 


并 


Ho, 


这 里 打开 一 个 终端 


有 了 一 个 运行 着 的 Cassandra 集 群 了 ， 我 们 来 操作 一 下 ， 确 认 一 切 正常 吧 。 在 
EWindows 下 ， 你 可 能 还 要 多 做 一 点 工作 


， 运 行 客户 


>bin\cassandra-cli 


对 于 Windows， 启 动 客户 端 时 ， 你 可 能 会 


Starting Cassandra Client 
Exception in thread "main" java.1 


到 这 样 的 出 错 信 息 : 


ang.NoClassDefFoundError: 


org/apache/cassandra/cli/CliMain 


这 可 能 因为 是 在 bin 目 
找到 CliMain 文 件 来 启动 客 


Fm ^ REESE 


录 里 直接 启动 的 Cassandra， 这 样 ， 它 的 Java classpath 设 置 并 不 正确 ， 无 法 
定义 一 个 CASSANDRA_HOME 环境 变量 ， 指 向 


Cassandra 所 在 的 顶级 目 
里 启动 的 Cassandra 了 ° 


录 ， 也 就 是 放置 或 是 编译 Cassandra 的 


Lun 


E, 


环境 变量 


1X 


要 在 Linux 下 运行 命令 行 客户 
cassandra-cli 命令 : 


A 


只 要 到 Cassandra 的 安装 目 


可 以 参考 2.3.1 节 。 


Es 


录 ， 这 样 就 不 必 关 注 到 底 是 从 哪 


杂 ， 并 运行 bin 目 


录 里 的 


>bin/cassandra-cli 


Cassandra 的 客户 


端 就 会 开始 工作 : 


eben@morpheus$ bin/cassandra-cli 
Welcome to cassandra CLI. 


[defaultQunknown] 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 


现在 ， 你 就 拥 
不 过 ， 还 需要 注意 的 
话 ， 可 能 会 


的 。 对 于 


E 
点 是 ， 


始 使 | 


pi 


j Cassandra? 


有 了 一 个 交互 式 的 shell， 可 以 发 出 


[ 果 你 习惯 于 Oracle 
些 失 望 。Cassandra 的 命令 行 客户 端 六 


说 ^ 


El 不 


多 代码 就 可 以 检测 环境 是 否 可 


UE H 


25 ”基本 命令 行 命令 


在 开始 深入 人 研究 Cassandra 之 


前 ， 我 们 来 


让 ， 以 及 你 与 Cassandra 的 交互 是 


这 也 是 个 不 错 的 途径 。 


的 SQL*Plus 或 类 似 的 数据 库 命令 行 客 
不 是 一 个 全 功能 的 客 
因为 通过 这 个 客 


户 端的 
户 端 ， 它 确实 只 是 开发 
户 端 你 不 需要 写 很 


的 命令 。 我 们 将 看 到 如 何 使 
帮助 


2.5.1 


基本 环境 命令 ， 以 及 如 何 交 互 来 捐 


笼统 看 一 下 客户 端的 APL， 了 解 你 能 给 服务 器 送 什么 样 
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入 或 读 取 数 据 。 


命令 的 列表 ， 如 下 列 出 的 


要 在 命令 行 界面 下 获得 帮助 信息 ， 只 要 病 “?” 或 <help” 束 能 够 看 到 可 


只 是 和 元 数据 与 配置 术 


关 的 命令 ， 关 于 查看 与 设置 值 的 其 他 命令 我 


门将 在 后 面 介绍 。 


[defaultQKeyspace1] help 
List of all CLI commands: 


? Display this message. 
help Display this help. 
help &ltcommand» Display detailed, command-specific help. 
connect &lthostname»/&ltport» Connect to thrift service. 
use &ltkeyspace» [&ltusername» 'password'] Switch to a keyspace. 
describe keyspace &ltkeyspacename» 


Describe keyspace. 
exit Exit CLI. 
quit Exit CLI. 
show cluster name 


Display cluster name. 
Show list of keyspaces. 
Show server API version. 
[with &ltatti»-&ltvaluei1» [and &ltatt2»-&ltvalue2» ...]] 
Add a new keyspace with the specified attribute and 
value(s). 
create column family &ltcf» [with &ltatti»-&ltvalue1» [and &ltatt2»-&ltvalue2» ...]] 
Create a new column family with the specified 
attribute and value(s). 


show keyspaces 
show api version 
create keyspace &ltkeyspace- 


drop keyspace &ltkeyspace» 
drop column family &ltcf> 
rename keyspace &ltkeyspace» &ltkeyspace new name» 
rename column family &ltcf» &ltnew name» 


Delete a keyspace. 
Delete a column family. 
Rename a keyspace. 
Rename a column family. 


2.5.0 ”连接 服务 器 
这 样 启 动 客户 端 并 不 能 自动 连接 到 一 个 Cassandra 服 务 器 实例 。 所 以 ， 要 想 连 接 到 某 个 服务 器 还 


需要 使 用 connect 命 令 


ebenQmorpheus:-/books/cassandra/dist/apache-cassandra-0.7.0-beta1$ bin/ 
cassandra-cli 


Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaultQunknown] connect localhost/9160 

Connected to: "Test Cluster" on localhost/9160 
[defaultQunknown] 


zl 直接 在 启动 客户 端 时 ， 通 过 在 参数 里 指定 主机 和 端口 来 指定 连接 到 哪个 Cassandra 服 务 
实例 : 


ebenQmorpheus:-/books/cassandra/dist/apache-cassandra-0.7.0-beta1$ bin/ 
cassandra-cli localhost/9160 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaultQunknown] 


在 连接 服务 器 的 时 候 遇 到 类 似 这 样 的 出 错 信 息 : 


Exception connecting to localhost/9160 - java.net.Connect- 
Exception: Connection refused: connect 


请 确定 Cassandra 服 务 器 实例 是 否 在 这 个 个 主机 和 端口 上 ， 并 且 党 试 一 i a 
机 。 防 火 墙 也 可 能 会 阻止 连接 到 服务 器 上 。 同 时 请 检查 是 不 是 正在 使 用 上 面 新 的 0.7 的 语 


pur! 
s2 


这 个 语法 与 老 版 本 有 所 不 同 。 


上 面 的 命令 行 显示 ， 你 连接 到 了 一 个 称 为 “Test Cluster” 的 Cassandra 服 务 器 集群 。 这 是 因为 
localhost 上 的 单 节 点 集群 默认 就 是 这 样 设 置 的 。 


8 在 一 个 生产 环境 5 
2.5.3 ”描述 环境 


， 请 确定 在 配置 文件 里 去 掉 Test Cluster] FH 


Iu 
THE 
o 


在 连接 到 Test Cluster 这 个 Cassandra 服 务 器 实例 之 后 ， 如 果 你 使 用 的 是 二 进 制 发 布 版 ， 那 么 应 该 
已 经 设置 好 了 一 个 空 的 keyspace， 或 者 叫 Cassandra 数 据 库 ， 来 供 你 试用 了 。 


要 看 当前 正在 操作 的 集群 的 名 字 ， 输 入 : 


[defaultQunknown] show cluster name 


Test Cluster 


要 看 集群 中 有 哪些 keyspace 可 用 ， 使 用 如 下 命令 


[default@unknown] show keyspaces 


M 


system 


如 果 你 已 经 创建 了 自己 的 keyspace， 它 们 也 会 出 现在 这 里 。system keyspacezé Cassandra ZAN 
部 使 用 的 ， 我 们 不 能 在 里 面 存 放 数 据 。 这 样 看 的 话 ， 它 的 作用 类 似 于 微软 的 SQL Server 里 的 
master 和 temp 数 据 库 。 这 个 keyspace 里 存放 的 内 容 包括 schema 的 定义 和 运行 时 对 schema 进 行 的 所 
有 修改 。 利 用 这 个 keyspace， 对 schema 的 任何 修改 都 可 以 基于 时 间 惟 的 先后 顺序 传 遍 整个 集群 。 


HA 看 系统 使 用 的 API 版 本 ， 只 要 输入 : 


[default@Keyspace1] show api version 
10.0.0 


~ 多 其 他 的 命令 可 以 和 演 试 。 现 在 ， 我 们 首先 在 数据 库 里 添加 一 些 数据 ， 再 把 它们 取出 


2.5.4 创建 keyspace 和 列 族 


Cassandra keyspace 大 致 相当 于 关系 数据 库 里 的 一 个 数据 库 。 它 会 定义 一 个 或 多 个 列 族 ， 列 族 大 
ee 。 当 我 们 不 指定 keyspace 来 启动 命令 行 客户 端 时 ， 输 出 大 致 如 


»bin/cassandra-cli --host localhost --port 9160 
Starting Cassandra Client 
Connected to: "Test Cluster" on localhost/9160 
Welcome to cassandra CLI. 


L 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[defaultQunknown] 


shell 提 示 符 显示 为 default@unknown ， 因 为 我 们 没有 作为 某 一 个 用 户 通 过 鉴 权 ( 鉴 权 的 内 容 
会 在 第 6 章 介绍 ) ， 而 且 也 没 指定 keyspace 。 


一 全 这 里 鉴 权 的 方式 和 MySQL 很 类 似 ， 如 果 用 过 MySQL 应 该 不 会 感到 陌生 。 鉴 权 与 授权 的 
HA EAEAN 写作 时 还 在 开发 中 。 我 们 建议 把 Cassandra 集 群 放 在 防火 墙 内 ， 以 确保 安全 。 
我 们 首先 创建 自己 的 keyspace， 这 样 就 能 在 里 面 写 入 数据 了 : 


[defaultQunknown] create keyspace MyKeyspace with replication factor-1i 
ab67bad0-ae2c-11df-b642-e700f669bcfc 


暂时 不 要 管 replication_factor ， 后 面 我 们 会 详细 探讨 这 个 设置 的 。 在 创建 了 自己 的 
keyspace 之 后 ， 你 可 以 通过 如 下 命令 来 进入 这 个 keyspace: 
[defaultQunknown] use MyKeyspace 


Authenticated to keyspace: MyKeyspace 
[defaultQMyKeyspace] 


对 为 MyKeyspace 并 不 要 求 认 证 ， 所 以 我 们 被 授权 访问 这 个 keyspace T ° 
现在 可 以 在 这 个 keyspace 里 面 创建 列 族 了 。 要 通过 命令 行 创建 列 族 ， 可 以 使 用 如 下 命令 : 


[default@MyKeyspace] create column family User 
991590d3-ae2e-11df-b642-e700f669bcfc 
[defaultQMyKeyspace] 


这 样 就 在 当前 keyspace 创 建 了 一 个 使 用 默认 列 族 设置 的 名 为 “User” 的 列 族 。 我 们 可 以 使 用 
户 端的 describe keyspace 命 命令 来 查看 keyspace 的 : 首 述 信息 和 列 族 的 定义 ， 如 下 : 


[defaultQMyKeyspace] describe keyspace MyKeyspace 
Keyspace: MyKeyspace 


a 
> 
M 
m 


Column Family Name: User 

Column Family Type: Standard 

Column Sorted By: org.apache.cassandra.db.marshal.BytesType 
flush period: null minutes 


[defaultQMyKeyspace] 


我 们 后 面 会 来 关注 Type ^ Sorted By 以 及 flush period 设置 。 则 开始 ， 现 在 这 些 已 经 足 
ET ° 
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现在 ， 我 们 已 经 有 了 keyspace 和 列 族 ， 将 向 数据 库 里 面 写 入 一 些 数据 再 读 取出 来 。 虽 然 现 在 还 不 
太 明 自 它 是 如 何 工 作 的 ， 不 过 这 问题 不 大 。 我 们 将 在 后 面 的 章节 来 逐步 熟悉 Cassandra 的 数据 模 
型 。 现 在 ， 你 已 经 拥有 了 一 个 keyspace 〈 数 据 库 ) ， RE! 有 一 个 列 族 。 对 于 我 们 的 简单 目的 来 
说 ， 直接 把 列 族 看 做 是 一 个 多 维 有 序 映射 就 可 以 ， 无 需 提前 进行 更 多 设置 。 列 族 里 包含 列 而 
列 是 原子 级 的 数据 存储 单元 。 


要 写 入 值 ， 可 以 使 用 set 命令 : 


[default@MyKeyspace] set User['ehewitt']['fname']-'Eben' 

Value inserted. 

[defaultQMyKeyspace] set User['ehewitt']['email']-'meQexample.com' 
Value inserted. 

[defaultQMyKeyspace] 


这 里 为 键 值 ehewitt 创建 了 两 个 列 ， 分 别 写 入 了 相应 的 值 。 列 的 名 字 是 fname fllemail » R 
们 可 以 使 用 count 命令 来 确认 已 经 为 这 个 键 值 写 入 两 个 列 了 : 


[defaultQMyKeyspace] count User['ehewitt'] 
2 columns 


现在 数据 已 经 在 Cassandra 里 了 ， 让 我 们 来 把 数据 读 出 来 ， 使 用 get 


[defaultQMyKeyspace] get User['ehewitt'] 

=> (column-666e616d65, value-Eben, timestamp-1282510290343000) 

=> (column-656d61696c, value-meQexample.com, timestamp-1282510313429000) 
Returned 2 results. 


a 
a> 


可 以 使 用 del 命令 来 删除 一 列 。 这 里 将 针对 ehewitt 的 行 键 值 (row key) 删除 email 7l: 


[defaultQMyKeyspace] del User['ehewitt']['email'] 
column removed. 


现在 删除 整 行 来 清除 掉 我 们 留 下 的 痕迹 。 同 样 使 用 del 命令 ， 不 过 这 次 不 指定 列 的 名 字 了 : 


[default@MyKeyspace] del User['ehewitt'] 
row removed. 


要 确定 这 行 已 经 被 删除 了 ， 可 以 再 查询 一 次 : 


[default@Keyspace1] get User['ehewitt'] 
Returned 9 results. 
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现在 ， 你 已 经 安装 好 一 个 Cassandra 集 群 并 运行 起 来 了 。 我 们 已 经 通过 命令 行 客户 端 插入 和 取出 


一 些 数据 ， 在 真正 深入 细节 之 前 ， 该 来 看 看 Cassandra 的 全 貌 了 。 


第 3 章 ”Cassandra 的 数据 模型 


在 本 音 中 ， 我 们 将 尝试 理解 Cassandra 的 设计 目标 、 数 据 模型 以 及 一 些 一 般 的 行为 特征 。 


对 于 关系 型 数据 库 的 开发 者 和 管理 员 来 说 ， 理 解 Cassandra 的 数据 模型 起 先 可 能 有 7 


aa 


1 有 自己 的 模型 。 


3.1 关系 型 数据 模型 


些 名 词 是 全 新 的 ， 比 如 keyspace， 还 有 一 些 词 可 能 有 不 同 的 含义 ， 比 如 “ 列 ”。 如 及 


\ 少 困难 。 
你 尝试 直接 去 


十 Dynamo 或 是 BigTable 的 文件 ， 可 能 也 容易 混淆 ， 因 为 虽然 Cassandra 是 以 它们 


为 蓝本 的 ， 但 


所 以 ， 本 章 将 从 一 些 共 有 的 概念 入 手 ， 然 后 再 去 熟悉 那些 新 的 名 词 。 之 后 ， 我 们 会 进行 一 些 实 
际 的 建 模 ， 以 便 帮 助 各 位 读者 了 解 如 何 从 关系 型 数据 库 跨 越 到 Cassandra 的 世界 来 。 


在 关系 型 数据 库 中 ， 我 们 拥有 数据 库 本 身 ， 这 一 般 是 对 应 于 单个 应 用 的 最 外 层 的 容器 。 数 据 库 
里 包含 若干 张 表 。 表 有 名 字 和 一 个 或 多 个 列 ， 每 个 列 也 有 名 字 -关门 表 里 洪 加 数据 的 时 候 ， 要 


旨 定 每 一 列 对 应 的 值 。 如 果 对 于 某 一 列 ， 没 有 值 相对 应 ， 就 要 置 空 (null ) 


。 这 组 新 的 数据 项 
给 表 添加 了 一 行 ， 之 后 ， 如 果 我 们 知道 这 行 的 唯一 标识 CERE) ， 还 可 以 读 出 这 行内 容 ; d 


则 ， 就 使 用 SQL 查询 语句 来 表达 约束 条 件 来 匹配 这 行内 容 。 如 果 和 而 望 更 新 表 中 的 内 容 ， 则 既 可 


以 更 新 所 有 行 也 可 以 更 新 部 分 行 ， 更 新 的 范围 可 以 使 用 SQL 语 句 中 的 where 子 句 来 选 定 。 


为 了 学 习 Cassandra， 最 好 暂时 先 把 这 些 来 自 关 系 型 数据 库 的 知识 抛 在 脑 后 。 


3.2 简介 
本 节 我 们 将 采用 自 底 向 上 的 方法 来 理解 Cassandra 的 数据 模型 。 
可 能 你 想 要 的 最 简单 的 数据 存储 机 制 就 是 数组 或 列表 了 ， 如 图 3-1 所 示 。 


图 3-1: 


结构 的 外 部 文档 


(如 null) , 
85) 


TÆ, WES 


映射 (map) 


值 的 列表 


如 果 你 永久 保存 了 这 个 列表 ， 
些 值 都 表达 了 什么 含义 ， 或 者 需要 水 远 将 每 一 个 值 帮 在 列 


就 可 以 在 之 后 进行 查询 ， 


但 可 能 


表 中 


Td SEA 
国定 的 地 方 


来 记录 每 个 


全 列表 添加 第 二 个 维度 : 
结构 ， 如 图 3-2 所 示 。 


um 


图 3-2: “名 / 值 ” 对 的 映射 


现在 可 
aH 


Fl S 


o 


以 知道 一 个 值 的 名 称 了 ， 
那么 列 名 应 包含 first name 
丰富 的 数据 结构 。 


但 是 ， 我 们 建立 的 数据 结构 只 在 描述 对 象 仅 拥有 一 


` 宾馆 或 是 一 条 消 4 


ERTE EWA 


E (Tweet) 
ESAE 到 目前 


法 重复 相同 的 列 名 。 
一 个 键 值 来 访问 一 组 列 ， 
行 ， 就 可 以 获取 一 个 对 象 的 所 有 名 


某 组 列 的 集 


am 


我 们 需要 的 实 
这 一 组 


位 置 都 是 什 
以 便 保 持 列表 大 小 一致 即使 某 些 可 选 的 
。 总之， 数组 是 一 个 简单 有 用 的 数据 结构 ， 


这 当 


。 如 果 硕 望 在 一 个 数据 结构 是 
为 止 ， 我 们 还 不 能 创建 一 个 统一 的 “名 / 值 ? 英 射 的 集合 


么 值 。 这 样 ， 你 可 


一 


m 


的 值 


值 对 应 的 名 称 。 


然 是 一 个 和 
^ last name 


^ phone 


能 就 不 
但 语义 不 够 丰富 。 
我 们 给 每 个 元 素 一 个 名 称 ， 现 在 有 了 


重大 进步 。 如 果 我 们 决定 用 这 


得 不 保存 一 些 空 的 占 


个 查看 值 的 内 容 来 判断 这 
之 后 通过 描述 数据 
位 内 容 


并 不 存在 《比如 传真 号 


F BREA 


email 等 ， 显 然 ， 这 是 一 


a 


文 个 映射 来 存放 用 


个 实例 的 时 候 才 能 工作 ， 比 如 一 个 人 、 用 


际 是 把 某 些 列 值 分 成 一 组 ， 
可 以 看 做 是 一 个 集合 。 而 且 


存放 多 个 对 象 就 不 那么 容易 了 ， 
， 也 无 


从 而 可 以 单独 地 分 组 访问 。 需 要 


于 是 


还 需要 行 。 


据 库 领 域 中 的 一 张 表 。 


把 


下 提 到 的 这 些 概 念 放 在 一 


起 ， 


端 还 会 提供 


容器 。 


关系 数据 库 中 ， 习 惯 使 用 
类 型 的 限制 。 行 键 值 和 列 名 都 可 以 和 关系 型 数据 库 


个 最 近 一 次 更 新 的 时 


之 /省 中 


FRR 


不 


又 可 以 在 “ 值 ， 


其 他 任何 类 型 的 字 市 数组 。 所 以 ， 键 名 的 


这 揭示 了 Cassandra 的 列 的 另 一 个 有 趣 特质 : 
数据 ， 在 “ 键 


"里 存放 有 用 


样 。 


我 们 先 不 必 着 


现在 ， 我 们 不 需要 在 存储 一 个 新 元 素 时 就 为 每 列 都 存储 一 个 值 。 也 以 
列 的 值 。 比 如 ， 有 些 人 有 
Mp, TARH 


着 急 往 前 走 这 么 远 。 


ER, 


识 称 为 行 键 值 ( 
m 


就 有 了 Cassandra 的 基本 数据 结构 : 列 ， 


或 者 获取 我 们 所 关 ， 
合 的 对 象 称 为 行 ， 每 个 行 的 唯一 标 


Cassandra 还 定义 了 一 个 列 族 B 
3 户 列 族 、 一 个 宾馆 列 族 、 一 个 地 址 短 列 族 


的 分 组 ， 联 系 起 相似 的 数据 。 比 如 ， 
。 依 照 这 个 方法 ， 一 个 列 族 大 致 关 似 于 关系 数 


如 果 读 取 一 


fé 。 我 们 把 每 个 


拥有 


row key) 。 


可 能 


也 就 是 名 / 值 对 


HED ; PUNK. MEHRA 


存储 列 名 一 一 这 是 唯一 被 允 j 


及 置 就 更 丰富 了 。 


”里 也 同样 可 


第 二 个 电 
F 有 些 域 是 可 选 的 ， 


话 号 码 ， 而 很 多 人 没有 ， 而 
有 些 域 是 必 选 的 。 这 些 都 可 


它们 不 必 是 简单 的 预 完 设 定 


| 


( 客 


相似 但 不 同 列 集合 的 行 而 准备 的 


午 的 。 但 是 在 Cassandra 里 


i 


没有 


样 是 字符 串 ， 但 也 可 以 是 长 整数 、 


的 “ 键 值 对 ”的 关系 ; 你 
以 。 在 Cassandra 中 创建 索引 时 常常 就 是 这 


F 我 们 还 不 知道 某 个 元 素 每 
日 在 一 个 Cassandra 支 持 的 在 线 表 
以 。 而 且 ， 不 知道 的 值 也 不 必 存 


LN 来 浪费 空间 ， 我 们 根本 不 会 为 某 些 行 存 储 那 些 列 。 这 样 ， 就 有 了 如 图 3-3 的 一 个 稀 
` 多 维 的 数组 结构 了 。 


ne 
ne 


图 3-3: 列 族 
一 个 JSON (JavaScript 对 象 标记 ) 的 例子 可 能 比 一 个 图 片 更 有 助 于 理解 : 
Musician: ColumnFamily 1 
bootsy: RowKey 
email: bootsyQpfunk.com,  ColumnName:Value 
instrument: bass ColumnName: Value 
george: RowKey 
email: georgeQpfunk.com . ColumnName:Value 
Band: ColumnFamily 2 
george RowKey 
SUA 1968-2010 ColumnName:Value 


这 里 有 两 个 列 族 : 音乐 家 和 乐队 。 音 乐 家 列 族 有 两 行 一 -bootsy 和 george。 这 两 行 都 有 一 两 个 
列 : boosty 有 两 列 e a ， 而 george 只 有 一 列 。 这 对 Cassandra 来 说 没什么 问题 。 
第 二 个 列 族 是 乐队 ， 里 面 也 有 george 行 ， 并 且 有 一 个 pfunk 列 。 


Cassandra 中 的 列 实际 还 有 第 三 个 元 素 时 间 戳 ， 时 间 戳 记录 了 列 上 一 次 被 更 新 的 时 间 。 不 过 ， 时 
间 惟 并 不 是 一 个 自动 的 元 数据 属性 ， 客 户 端 在 写 数据 的 时 候 必 须要 同时 提供 时 间 惟 的 值 。 不 能 
通过 时 间 惟 查询 数据 ， 时 间 惟 仅 用 于 在 服务 端 解决 冲突 。 


Uf 行 没有 时 间 稚 ， 只 有 每 个 单独 的 列 才 有 时 间 稚 


那么 ， 如 果 需 要 增加 一 组 相关 的 列 该 如 何 做 ， 能 在 这 之 上 增加 一 个 新 的 维度 ? Cassandra È 
许 我 们 使 用 超级 列 族 (super column family) 未 记过 个 任务 超级 列 族 可 以 看 做 是 映射 的 映 
射 。 图 3-4 所 示 的 就 是 超级 列 族 。 


图 3-4: 超级 列 族 


一 个 列 族 中 的 一 行 
的 列 族 里 找到 一 个 值 可 以 通过 行 键 什 
列 名 和 子 列 的 名 称 。 


本 
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要 行 键 值 、 
里 拥有 子 列 肘 了 。 


这 些 就 是 自 
更 高 的 层面 上 


pu 


一 个 名 / 值 对 的 集合 


， 而 超级 列 族 中 的 列 还 包 


和 列 名 来 找到 ， 而 在 一 


口 


们 有 必要 换 
333 “集群 


WRR 
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运行 
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是 为 跨越 多 台 主 机 共同 工作 ， 对 用 
最 外 层 结构 就 是 集群 (cluster) 


来 重新 描 


述 这 个 


这 里 其 实 


ru e. 
， 以 自 顶 向 下 的 方法 


个 单 节 点 ，Cassandra 大 概 不 是 最 佳 
呈现 为 一 个 整体 的 分 布 式 系 乡 
有 时 也 叫做 环 (ring) , 


ZN 


有 细微 的 差别 ， 


含有 一 


组 子 列 。 所 以 在 一 


1E 


一 2 人 


个 类 型 为 super' ,的 列 族 中 寻 址 需 


超级 列 族 仍然 包含 列 ， 


现在 有 了 


基本 的 理 


解 ， 


以 便 帮 助 读 考 更 全 


E 选择 。 


成 一 个 环 ， 并 依 此 来 分 配 数据 到 集群 中 的 节点 


每 个 节点 会 存放 部 分 数据 的 一 个 


求 。 


p2P 协 Dé 


副本 。 如 果 
数据 以 对 用 户 透 明 的 方式 在 节 点 间 互 术 


面 地 理 


我 们 可 以 天 
数据 模型 这 个 话题 非常 难以 理 
解 Cassandra 的 数据 模型 。 


解 ， 


正如 之 前 提 到 的 ，Cassandra 数 据 库 系 
充 设计 的 。 所 以 ，Cassandra 的 
因为 Cassandra 将 集群 中 的 节点 组 织 


只 是 每 个 列 


F 足 马力 上 升 到 
所 以 我 


统 


个 节点 宕 机 了 ， 它 的 男 一 个 副本 可 以 响应 查询 请 
复制 ， 副 本 因子 就 是 所 有 节点 中 存放 


的 相同 数据 的 副本 数量 。 我 们 会 在 第 6 章 里 详细 讨论 这 个 话题 。 

3.4 keyspace 

集群 是 keyspace 的 容器 ， 而 且 里 面 通常 只 有 一 个 keyspace。keyspace 是 Cassandra 中 数据 的 最 外 层 
容器 ， 和 关系 型 数据 库 的 概念 非常 接近 。 关系 型 数 据 库 类 似 > =o R P 
了 你 个 keyspace 范 围 的 全 局 行为 的 属性 。 虽然 人 们 常常 建议 ， 个 应 用 建立 一 个 单独 的 
keyspace 是 个 好 主意 ， 但 实际 上 这 没有 太 多 事实 依据 。 a ipm 但 是 按照 应 用 
B 需要 创建 足够 的 keyspace 才 是 最 好 的 。 可 是 注意 ， 要 是 给 一 个 应 用 创建 了 上 千 个 keyspace， 榴 


怕 难 免 会 通 到 麻烦 。 
按照 选择 的 分 区 方式 ， 如 果 安 全 


hz FH 


AU, 


在 Cassandra 中 ， 可 以 针对 keyspace 设 置 的 基本 
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副本 因子 束 是 每 行 数据 会 复制 到 多 少 个 市 
复制 过 程 对 于 客户 端 是 透明 的 。 
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RackUnawareStrategy， 非 机 架 感 知 策略 ) 
略 ， 之 前 称 为 RackAwareStrategy， 机 架 感 知 策略 ) 和 NetworkTopology- Strategy 《网 络 拓扑 
策略 ， 之 前 称 为 DatacenterShardStrategy， 数 和 
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(column family) 是 容纳 一 组 有 序 的 行 的 容器 ， 每 行 都 包含 一 
里 ， 按 照 模型 来 建立 数据 库 的 时 候 ， 
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进行 数据 建 模 的 。 这 是 另 一 个 需 


对 为 每 个 列 
列 族 与 关系 型 
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存储 为 不 同 的 文件 ， 所 
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的 另 一 个 不 同 在 于 ， 
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1 是 Standard , 
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以 把 相关 的 列 放 在 同一 个 列 族 | 


寺 刻 注意 的 列 族 与 表 
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F, KAWZO 
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而 对 本 


— ^r Cassandra 7) ]A = 


FP 写 数据 的 时 候 ， 要 指 


定 一 个 或 多 个 列 的 值 。 这 些 值 


都 通过 称 


标 


识 指定 。 行 


有 了 唯 


的 键 值 ， 


称 为 行 键 值 (rowkey) ， 


类 似 于 关系 型 数据 库 


E 


用 户 提供 


IUE CR BED 使 用 超级 列 


t TIE, 


这 


F 超 级 列 族 ， 它 的 类 型 被 设置 为 Super 。 


为 行 的 唯一 


的 主键 ， 可 以 


唯 一 标识 一 行 。 所 以 ， 说 Cassandra 是 面 癌 列 的 并 不 确切 ， 如 果 你 把 行 理解 为 是 列 的 容器 倒是 更 
有 利于 对 这 一 数据 模型 的 理解 。 这 也 是 为 什么 一 些 人 认为 Cassandra 的 列 族 类 似 于 四 维 哈 希 : 


[Keyspace] [ColumnFamily][Key][Column] 


我 们 可 以 用 一 种 类 似 JSON 的 方式 来 表示 Hotel 列 族 ， 如 下 : 


Hotel { 

key: AZC 043 { name: Cambria Suites Hayden, phone: 480-444-4444, 
address: 400 N. Hayden Rd., city: Scottsdale, state: AZ, zip: 
85255) 

key: AZS 011 ( name: Clarion Scottsdale Peak, phone: 480-333-3333, 
address: 3000 N. Scottsdale Rd, city: Scottsdale, state: AZ, zip: 
85255) 

key: CAS 021 ( name: W Hotel, phone: 415-222-2222, 
address: 181 3rd Street, city: San Francisco, state: CA, zip: 
94103) 

key: NYN 042 ( name: Waldorf Hotel, phone: 212-555-5555, 
address: 301 Park Ave, city: New York, state: NY, zip: 10019) 


} 


“ 驮 为 了 简便 起 见 ， 这 里 不 考虑 列 的 时 间 惟 属性， 不 过 要 记 住 ， 每 个 列 还 有 一 个 时 间 戳 。 


在 这 ， 行 键 值 是 Hotel 列 族 的 唯一 主键 ， 其 中 的 列 包 括 名 称 、 电 话 、 地 址 、 城 市 、 州 和 
邮政 编码 。 虽 然 所 有 这 些 行 恰巧 都 定义 了 这 些 相 同 的 列 ， 但 实际 上 你 可 以 让 一 行 有 四 列 ， 而 男 
一 行 有 400 列 ， 并 且 两 者 没有 任何 交 个 ， 这 都 没什么 问题 。 


E 同一 n 数据 必须 存放 在 集群 中 的 同一 台 机 器 上 ， 这 是 Cassandra 的 多 副本 设计 的 
核心 要 求 。 一 限制 的 原因 在 id 个 关联 的 行 键 值 ， 这 个 键 值 决定 了 放置 数据 副本 
的 位 置 。 sit 步 ， 每 列 的 大 小 不 能 超过 2 GB。 在 设计 数据 模型 的 时 候 ， 请 时 刻 注 意 这 些 限 


制 。 


我 们 可 以 在 命令 行 客户 端 用 如 下 方法 查询 列 族 : 


cassandra» get Hotelier.Hotel['NYN 042'] 

-» (column-zip, value-10019, timestamp-3894166157031651) 

=> (column-state, value=NY, timestamp-3894166157031651) 

=> (column-phone, value-212-555-5555, timestamp-3894166157031651) 

=> (column-name, value-The Waldorf-Astoria, timestamp-3894166157031651) 
=> (column-city, value=New York, timestamp-3894166157031651) 

=> (column-address, value-301 Park Ave, timestamp-3894166157031651) 
Returned 6 results. 


结果 显示 ， 我 们 有 一 家 在 纽约 州 纽约 市 的 酒店 ， 但 因为 结果 是 面向 列 的 ， 所 以 有 六 条 结 采 ， 对 
应 于 这 个 列 族 里 这 行 的 六 个 列 。 注 意 ， 尽 管 这 行 有 六 个 列 ， 但 其 他 行 可 以 有 不 同 数量 的 列 。 


列 族 选项 
你 还 可 以 为 每 个 列 族 定义 如 下 一 些 附加 的 参数 。 
。 keys cached 


每 个 SSTable 中 缓存 的 位 置 数量 信息 的 不 是 列 的 名 一 值 对 的 数量 ， 而 是 键 值 的 数 
量 ， 同 时 列 族 中 行 的 位 置 按照 最 近 最 最 少 用 (LRU) 的 方式 缓存 在 内 存 之 中 。 


pu 


— 


at 


e rows cached 


缓存 进 内 存 中 的 整 行内 容 的 数量 ， 包 括 每 个 行 键 值 对 应 的 所 有 名 值 对 的 列 | 于 


A 
o 


comment 
这 就 是 个 标准 的 注释 信息 ， 帮 你 记 住 列 族 定义 中 的 重要 信息 。 
read repair chance 


一 个 介 于 0 和 1 之 间 的 值 。 当 执行 查询 操作 而 没有 指 致 副本 数 
(quorum) ， 致 使 两 个 以 上 副本 返回 的 一 行 数据 的 值 出 现 层 义 时 ， 这 个 值 决定 了 进行 读 修 
复 操作 的 概率 。 当 读 操作 比 写 操作 多 很 多 时 ， 你 SER EUR BOR e : 


e preload row cache 
指定 是 否 在 服务 器 启动 时 预 读 一 部 分 行 缓存 。 


这 里 我 简化 了 一 下 这 些 定 义 ， 实 际 上 这 些 主要 是 配置 信息 和 服务 器 行为 ， 与 数据 模型 关系 不 
大 。 第 6 章 还 会 更 详细 地 介绍 这 些 内 容 。 


3.6 列 


3| (column) 是 Cassandra 数 据 模型 中 的 最 基本 数据 结构 单元 。 列 是 一 个 由 名 称 、 值 和 时 钟 构成 
的 三 元 组 ， 这 个 时 钟 可 以 看 做 一 个 时 间 稚 。 再 次 强调 ， 虽然 在 关系 型 数据 库 中 ， 我 们 非常 熟悉 
列 这 个 名 词 ， 但 如 果 你 觉得 Cassandra 和 关系 型 数据 库 里 的 列 是 一 样 的， 就 大 错 特 错 了 。 首 先 ， 
在 关系 型 数据 库 中 ， 你 需要 通过 预先 定义 所 有 列 的 名 子 来 指 定 表 的 结构 ， 而 在 稍 后 2 写 的 时 候 ， 
则 只 要 根据 预先 定义 好 的 数据 结构 提供 值 就 可 以 了 


然而 ， 在 Cassandra 之 中 不 需要 预先 定义 列 ， 只 要 在 keyspace 里 定义 列 族 ， 之 后 束 可 以 开始 写 数 
据 了 。 这 是 因为 Cassandra 之 中 所 有 列 的 名 字 都 是 由 客户 端 提 AH 。 这 可 以 让 应 用 在 使 用 数据 时 
灵活 得 多 ， 也 人 允许 数据 模型 随 着 时 间 推 移 来 循序 渐进 地 改变 


CH 


ái 


人 $5 Cassandra 的 时 钟 是 在 0.7 版 本 引入 的 ， 但 今后 前 途 未 卜 。 在 0.7 版 本 以 前 ， 它 叫做 时 间 
惟 ， 就 是 一 个 Java 的 长 整 型 数 。 现在 修改 后 支持 向 量 时 名 (vector clock) ， 这 是 一 种 分 布 式 
系统 中 的 冲突 解决 方法 ， 用 于 Amazon Dynamo 当 中 。 这 就 是 为 什么 列 的 三 元 组 中 最 后 一 个 既 
是 时 间 惟 ， 又 是 时 钟 了 。 向 量 时 钟 最终 亲 能 会 成 为 Cassandra 0.7 的 一 部 分 | 也 可 能 不 会 ， 尚 未 
最 终 确定 ， 本 书写 作 时 还 是 Beta 版 。1! 


译注 1: 最 终 发 布 的 0.7 并 不 包含 向 量 时 钟 ， 该 方案 已 经 被 最 终 放弃 (Cassandra-580) ， 在 下 一 个 版 本 中 ， 还 会 包含 一 个 新 的 
冲突 解决 方案 (Cassandra-1072) 


名 称 和 值 的 数据 类 型 是 Java 的 字 节 数组 ， 内 容 经 常 是 字符 串 。 因 为 名 称 和 值 是 二 进 制 类 型 的 ， 
所 以 它们 可 以 是 任意 长 度 的 。 时 钟 的 接口 类 型 是 org .apache.cassandra.db.IClock?， 
但 0.7 版 本 仍然 后 向 兼容 之 前 的 时 间 戳 。 列 的 数据 结构 如 图 3-5 所 示 。 


译注 2， 这 一 新 加 入 的 类 型 在 0.7 发 布 前 被 撤回 了 。 


Column 


图 3-5: 列 的 数据 结构 


Ey Cassandra 0.7 引 入 了 一 个 可 选 的 4 


期 。 这 可 能 会 非常 有 用 。 


E 存 时 间 (TTL) 


， 人 允许 列 在 创建 之 后 的 一 段 时 间 后 过 


"name": "email" 
"value: "negexanple. com" 
"timestamp": 1274654183103300 


这 是 一 个 列 的 例子 ， 清 晰 起 见 ， 使 用 JSON 格 式 给 出 : 
( 


以 有 多 个 键 值 〈 或 行 键 什 


m 


其 他 的 行 


可 能 也 有 这 个 列 。 


在 这 个 例子 中 ， 列 的 名 称 是 email， 更 精确 地 说 ， 名 称 属性 的 值 是 email。 回 忆 一 下 ， 一 个 列 族 可 
这 就 是 为 什么 从 关系 型 模型 转换 到 


Cassandra 的 模型 很 困难 了 ; 我 们 总 是 在 想 ， 关 系 型 数据 库 的 每 行 都 有 术 


间 等 。 


在 关系 型 数据 库 中 ， 所 有 的 行 都 存储 在 一 


起 。 早 期 版 本 的 Cassandraj 


Cassandra 中 ， 同 一 个 列 族 的 行 也 都 在 磁盘 上 存储 在 一 起 。 


— 5 Cassandra 不 支持 join。 如 果 你 定义 了 一 个 数据 模型 ， 


在 客户 端 进行 ， 要 么 创建 一 个 反 范式 


ES 


3.6.1 31157817 


户 来 说 非 常 普通 。 在 客户 端 进行 join 的 情况 非常 少 ， 


化 辅助 列 族 ， 用 于 


如 宾馆 、 用 户 、 产 品 等 ) 的 属性 集 。 
放 什么 ， 尺 寸 的 问题 就 没 的 商量 。 但 是 
宽 可 罕 ， 依 赖 于 行 里 的 列 数 。 


m 


在 为 传统 的 关系 型 数据 库 设计 表 的 时 候 ， 


相反 ， 


通常 是 在 处 理 条 目 ， 


进行 很 多 操作 ， 包 括 以 字 节 数组 类 型 


司 的 列 。 但 在 Cassandra 


里 ， 每 个 列 族 有 很 多 行 ， 每 个 行 可 以 有 相同 的 ， 也 可 以 有 不 同 的 列 的 集合 。 


在 服务 器 端 ， 列 是 不 可 变 的 ， 以 防止 多 线程 问题 。Cassandra 中 ， 列 定义 
org.apache.cassandra.db.IColumn £L, EÝ 
获取 值 ， 或 是 作为 超级 列 族 ， 以 collection<IColumn> 类 型 返回 子 


于 


子 列 ， 以 及 查找 最 近 改 动 时 


并 非 如 此 ， 但 0.6 版 本 以 后 的 


发 现 需要 使 用 join， 那 要 么 不 得 不 
存放 join 的 结 
你 真正 需要 的 是 复制 〈《 反 范式 化 ) 


果 。 这 对 于 Cassandra 的 用 


或 者 是 在 处 理 个 描述 特定 名 词 


不 会 过 多 考虑 行 


WAAR 


因为 一 旦 决定 了 要 在 行 里 


， 在 使 用 Cassandra 时 , 确实 需要 决定 行 的 尺寸 它们 可 


宽 行 意味 着 行 有 很 多 很 多 列 (可 能 包含 
情况 下 ， 可 能 会 类 似 关系 模型 ， 可 以 定 


可 以 用 一 行 来 存放 一 个 小 时 的 时 间 上 


上 万 甚至 上 百 万 列 ) 。 经 常会 有 
义 很 少 的 列 ， 但 
使 用 修订 的 时 间 戳 作为 行 键 值 ， 


内 访问 应 用 的 了 地址 。 这 样 ， 每 小 时 会 


eR 


9 列 实际 都 是 可 选 的 。 
宽 行 与 鹤 行 的 另 一 个 区 别 是 ， 通 常 只 有 


3.6.2 ” 列 的 排序 


创建 一 个 新 的 行 


键 值 。 


宽 行 才 会 考虑 列 


些 行 有 很 多 列 。 相 反 


会 有 和 PIU 这 就 是 罕 行 模型 。 


宽 行 通常 容纳 目 动 生成 的 名 字 ， 如 UUID 或 时 间 戳 ， 用 于 存储 一 个 列表 。 比 如 一 个 监控 程序 ， 你 


用 列 来 存储 这 个 时 间 段 


行 比 较 类 似 传统 的 RDBMS 行 ， 每 行 包含 了 类 似 的 列 的 名 字 。 与 RDBMS 行 的 区 别 在 于 ， 所 有 


名 的 排序 问题 。 


下 节 就 讨论 这 个 问题 。 


列 的 定义 之 中 有 另外 的 一 个 


名 字 如 何 进 行 比 较 和 排序 。 列 通过 区 
BytesType ^ LexicalUUIDType ` IntegerType ^ 


RE. 


元 素 。 在 Cassandra 


在 


结果 返回 给 客户 端的 时 候 ， 可 以 指定 列 的 


AsciiType ^ 


TimeUUIDType 和 UTF8Type 。 


AsciiType 


直接 通过 比较 字 节 进行 


照 英文 字母 表 的 顺序 进行 编码 的 。ASCII 定 义 了 128 个 字符 ， 


BytesType 


排序 ， 


Uii 


FP 定义 的 "Compare With” 类 型 来 排序 ， 可 以 从 如 下 类 型 


每 个 输入 都 需要 验证 


LongType ^ 


是 否 符合 US-ASCII 编 码 。US-ASCII 是 按 


其 中 94 个 是 可 打印 的 。 


这 是 默认 的 排序 方法 ， 


且 


说 ， 按 照 字 市 排序 都 是 
LexicalUUIDType 


一 个 16 字 节 


(12847) 的 全 局 唯 


正确 的 。 


LongType 
按照 8 字 节 


IntegerType 


这 是 0.7 引 入 的 ， 比 长 整 型 更 快 


(64 位 ) 的 长 整 型 数值 


接 比 较 字 节 ， 不 检查 字 节 的 内 
BytesType 作为 默认 排序 方法 的 一 个 原因 是 


ym 


标识 (UUID) 


* ft » 


进行 排序 。 


Tm 
i 


Ff 


日 比 LongType 的 64 位 更 多 或 


容 是 否 符合 某 种 编码 。 以 


于 大 部 分 类 型 (包括 UTF-8 和 ASCII) 来 


Xj 


， 进 行 字 节 的 排序 。 


少 的 位 数 。 


e TimeUUIDType 
Hes (2807) 时 间 惟 进行 排序 。 有 五 个 通用 的 时 间 戳 UUID 生 成 方法 。Cassandra 使 
的 是 第 一 种 ， 这 是 一 种 用 计算 机 的 MAC 地 址 和 从 公历 纪年 开始 的 以 100 纳 秒 为 单位 的 时 
司 值 生 成 的 编号 。 
。UTF8Type 
UTF-8 字 符 编 码 的 字符 串 。 看 起 来 很 适合 作为 默认 排序 类 型 ， 因 为 这 会 让 使 用 XML 和 其 他 
需要 公共 编码 格式 的 数据 交换 方式 的 程序 员 感 到 很 舒服 ， 但 在 Cassandra 中 ， 除 非 你 需要 验 
证 数据 ， 否 则 不 要 使 用 UTF8Type ° 
e Custom 
如 果 愿 意 ， 你 可 以 创建 自己 的 排序 算法 。 和 Cassandra 中 的 很 多 东西 一 样 ， 这 也 是 方便 易 用 
的 ， 你 需要 做 的 就 是 扩展 org.apache.cassandra.db.marshal.AbstractType ， 并 
指定 自己 的 类 名 。 
列 名 的 存储 是 按照 compare_with 的 值 来 排序 的 ， 行 则 按照 分 区 器 定义 的 顺序 排序 存储 的 〈 比 
如 使 用 RandomPartitioner， 就 是 随机 顺序 的 ) 。 我 们 会 在 第 6 章 里 介绍 。 
在 Cassandra 之 中 是 无 法 像 关 系 型 数据 库 那样 按照 值 来 排序 的 。 虽 然 这 看 起 来 是 个 很 奇怪 的 限 
制 ， 但 这 是 因为 Cassandra 必 须 按照 列 名 来 提 IE, 以 便 能 从 一 个 很 宽 的 行 里 高 效 取 出 一 列 ， 而 无 
需 把 每 列 都 读 入 内 存 。 人 性 能 是 Cassandra 的 重要 卖点 ， 而 实时 排序 非常 影响 性 能 9 


tesis ERR, [ni(i 
3.7 ”超级 列 


排序 不 是 ， 行 刍 值 总 是 按照 字 节 序 


超级 列 (super column) 是 一 种 特殊 的 列 。 两 种 列 都 是 名 / 值 对 ， 


pum 映射 。 超 级 列 不 能 存储 i 


但 普 


使 用 一 层 ， 但 是 它 并 不 限制 列 的 数量 。 


超级 列 的 基本 数据 结构 包含 它 的 名 字 和 它 存储 的 列 ， 它 的 名 字 和 


( 见 图 3-6) 。 它 存储 的 列 保存 为 一 个 映射 ， 键 值 是 列 的 名 字 ， 而 值 


: SuperColumn 


图 3-6: 超级 列 的 基本 结构 


每 个 列 族 在 磁盘 上 都 存储 在 自己 单独 的 文件 中 
询 的 内 容 保存 在 同一 个 列 族 非 常 重要 ， 用 超级 列 可 以 帮助 你 更 


: name: byte[] | cols: Map«byte[], IColum> 


SuperColumn 类 既 实现 了 IColumn 类 ， 也 实现 了 IColumnContainer 类 ， 两 者 都 位 于 
org.apache.cassandra.db 包 内 。Cassandra 进 行 远程 操作 
Thrift API。 因 为 Thrift API 不 能 标记 继承 关系 ， 所 以 ， 
当 数 据 结构 使 用 这 个 类 型 表示 时 ， 你 需要 了 解 外 


ColumnOrSupercolumn 类 型 ， 
是 Super 还 是 Standard。 


个 四 维 哈 希 表 。 但 当 引 入 超级 列 轩 


Fi 


排序 的 。 


XS PUES Be DANH. TU 


其 他 超级 列 的 映射 。 也 就 是 说 ， 


普通 的 列 一 样 ， 
是 那些 列 。 


。 所 以 ， 要 优化 Cassandra 的 性 
容易 地 做 到 这 点 


所 使 用 的 底 
有 时 API 会 表示 为 


TZE 


超级 列 仅 允 许 


$ i 有 趣 的 事实 : 超级 列 是 Facebook 给 Google 的 Bigtable 数 据 模型 增加 的 更 新 之 一 。 


这 里 我 们 看 到 了 一 些 更 丰富 的 数据 模型 。 当 使 用 之 前 看 到 的 普 
| ， 它 变 成 了 一 个 五 维 哈 希 : 


层 RPC 序 列 化 机 种 


AE 


层 的 列 族 类 型 


通 列 时 ，Cassandra 看 起 来 像 是 一 


[Keyspace] [ColumnFamily][Key][SuperColumn][SubColumn] 


une 


XE 


这 个 行 键 值 指向 的 是 一 个 普通 列 的 列表 或 是 映射 的 名 字 了 ， 这 里 的 普 


超级 列 ， 就 需要 定义 列 族 类 型 为 Super 。 然 后 ， 和 用 


普通 列 一 样 ， 仍 然 使 用 行 键 值 ， 


通 列 在 


有 时 也 叫做 子 列 。 


但 


这 里 有 一 个 名 为 PointofInterest 的 超级 列 族 定义 作为 例子 。 在 酒店 行业 中 ， 兴 趣 点 (point 


of interest) 是 酒店 附近 旅客 可 能 乐 


PointOfInterest (SCF) 
SCkey: Cambria Suites Hayden 


key: Phoenix Zoo 
{ 


phone: 480-555-9999, 


u 
key: Spring Training 


phone: 623-333-3333, 


3 
}, // cambria 行 结束 


于 造访 的 地 方 ， 比 如 公园 、 


desc: They have animals here. 


desc: Fun for baseball fans. 


博 


物 馆 、 


动物 园 或 旅游 景点 。 


SCkey: (UTF8) Waldorf-Astoria 
1 


key: Central Park 
desc: Walk around. It's pretty. 


key: Empire State Building 
1 


phone: 212-777-7777, 
desc: Great view from the 102nd floor. 
} 
F 
J 


PointOfInterest 超级 列 族 有 两 个 超级 列 ， 每 个 对 应 于 一 个 不 同 的 酒店 (Cambria Suites 
Hayden 和 Waldorf=Astoria) ， 行 键 值 是 不 同 的 兴趣 点 的 名 字 ， 比 如 Phoenix Zoo 或 是 Central 
Park。 每 行 都 有 一 些 列 作为 描述 (desc 列 ) ， 有 些 行 有 电话 号 码 ， 而 有 些 没 有 。 这 和 关系 型 数据 
E RUE PERSE RHET EST — Rt 的 ， 而 列 族 和 超级 列 里 仅仅 是 一 组 类 似 的 
记 孙 而 已 。 


使 用 命令 行 ， 我 们 可 以 查询 超级 列 族 ; 


cassandra» get PointOfInterest['Central Park']['The Waldorf-Astoria'] 
['desc'] => (column-desc, value-Walk around in the park. 
It's pretty., timestamp -1281301988847) 


这 个 查询 是 说 ， 在 PointofInterest 列 族 (类 型 是 Super ) 中 ， 使 用 行 键 值 <Central Park", 
对 于 超级 列 “waldorf=Astoria”， 取 “desc" 列 的 值 ， 也 就 是 取 这 个 兴趣 点 的 文字 描述 。 


组 合 键 
使 用 超级 列 进行 建 模 的 时 候 ， 需 要 考虑 一 个 重要 的 问题 : Cassandra 不 对 子 列 进行 索引 ， 所 以 ， 


当 加 载 一 个 超级 列 进入 内 存 的 时 候 ， 所 有 子 列 都 会 被 载 入 。 


Aa 


— $2 这 个 问题 由 Twitter 的 负责 人 Ryan King 发 现 ， 可 能 会 在 将 来 的 版 本 中 解决 。 但 这 个 改动 
要 牵扯 到 底层 存储 文件 (SSTable) ， 还 尚未 完成 。 


现在 你 可 以 使 用 一 个 自己 设置 的 组 合 链 绕 过 这 个 问题 。 组 合 键 看 起 来 束 像 &1tuserid: 
lastupdate> 。 


这 些 都 是 在 建 模 时 考虑 的 问题 ， 当 你 进入 到 实战 阶段 的 时 候 会 回来 检查 这 些 问 题 。 不 过 ， 如 果 
数据 模型 将 来 可 能 会 有 上 于 个 子 列 ， 那 么 你 可 能 就 应 该 采用 其 他 什么 方法 ， 而 不 是 超级 列 了 。 
、 就 是 组 合 键 。 与 使 用 超级 列 里 的 列 不 同 ， 组 合 键 使 用 普通 列 族 里 的 普通 列 ， 只 
是 在 键 的 名 字 里 加 入 一 个 自 定义 的 分 隔 符 ， 在 客户 端 取 出 的 时 候 分 析 这 个 键 值 就 可 以 了 。 


这 是 一 个 组 合 键 的 例子 ， 这 个 例子 还 用 在 了 Cassandra 具 体 化 视图 设计 模式 里 ， 同 时 也 使 用 了 一 
种 我 称 之 为 无 值 列 Re 常用 设计 模式 : 


DR 
BE 
SEES 
E 


HotelByCity (CF) Key: city:state 
key: Phoenix:AZ (AZC 043: -, AZS 011: -) 
key: San Francisco:CA (CAS 021: -} 
key: New York:NY (NYN 042: -} 

H 


里 发 生 了 三 件 事 情 。 首 先 ， 我 们 在 外 部 定义 了 一 个 称 为 Hotel 的 列 族 ， 但 还 可 以 再 创建 一 个 
WHotelByCity 的 列 族 ， 存 放 酒 店 信息 的 反 范 式 化 数据 。 我 们 以 不 同 的 方式 重复 保存 了 同 
的 信息 ， 这 和 RDBMS 里 的 视图 非常 类 似 ， 因 为 它 允 许 我 们 更 快 和 更 直接 地 进行 查询 。 其 次 ， 
要 通过 城市 来 查询 酒店 时 (因为 很 多 客户 都 是 通过 城市 来 搜索 酒店 的 ) ， 可 以 创建 一 个 表 来 


IRE 


XE SUB 


A] 


新 的 行 键 值 去 搜索 ， 但 是 ， 


能 直接 使 用 


H5 
EE FITE EA 


HÈTI 


译注 3: | 首府 ， 


的 名 字 作为 行 键 值 ， 
BERAI 


不 同 的 州 有 


1 


NJ 


民 多 同名 的 城市 ( 想 想 Springfield) 3 , 
EMEF ° 


RUN 


H 我 


TERIS 


一 个 称 为 无 值 列 


哪些 酒店 ， 不 需要 


反 范 式 化 更 多 的 东西 了 。 


UU 


二 


同名 城市 。 


所 以 ， 


的 值 了 。 这 样 ， 


(valueless column) 的 模式 。 我 们 需要 知道 的 只 是 城市 9 
这 些 列 的 名 字 就 是 它们 的 值 ， 


在 插入 列 的 时 候 ， 


口 


浅海 


需要 保存 一 个 空 的 字 节 数 台 


所 以 我 们 不 


REPERI 


作为 值 就 可 以 了 。 


3.8 ”Cassandra 与 RDBMS 的 设计 差别 


Cassandra 的 模型 和 查询 方式 与 RDBMS 有 外 


3.81 没有 查询 语言 


— 


SQL 是 关系 型 数据 库 的 标准 


查询 i 


H 


的 RPC 序 列 化 机 制 ，Thrift » 
3.82 ”没有 引用 完整 性 


Cassandra 没 有 引用 完整 性 
间 定 一 个 外 部 键 值 ， 


的 概念 ， 


通过 Thrift API, 


(mj 


因 


RB, ic 


Cassandra [1 78 Æ 


询 语言 。 


jp 


而 没有 join 的 概念 。 


不 过 Cassandra 确 实 也 有 


可 以 访问 其 中 


在 关系 型 数 


以 此 引用 


EE 


一 个 表 中 记录 


的 主 


EHE e 


存储 其 他 表 中 的 相关 ID 是 


需求 ， 


的 概念 。 
3.8.3 ”第 二 索引 
第 二 索引 确实 是 一 个 有 


据 库 里 ， 可 能 这 么 查询 ; 
hotel 


的 功能 


个 通用 


这 仍然 是 被 支持 的 ， 但 Cassandra 昌 


的 数据 。 


e 


E 


库 中 ， 你 可 以 在 一 个 表 中 


s 


。 但 是 ，Cassandra 并 没有 提供 这 个 功能 。 


里 没有 级 联 删 除 这 样 


， 比 如 你 需要 找到 具 


RT 


T 


店 的 唯 


ID， 在 关系 型 数 


SELECT 


当 你 知道 酒店 的 名 字 却 不 知道 ID 的 时 候 ， 
检查 每 行 的 name 列 ， 


个 查询 ， 会 进行 一 个 全 表 扫 


ID FROM Hotel WHERE name = 'Clarion Midtown'; 
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肯定 想 这 


H, 


淘 可 能 会 和 对 这 种 情况 ， 
数据 的 
进行 索引 ， GEUESERSI, 
然 不 文 持 第 二 索引 。 


1: 如 下 文 提 到 ， 
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译注 


关系 型 
个 副本 ， 来 帮助 更 快 地 检索 数据 。 
以， 对 
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"如果 表 很 大 ， 
个 索引 ， 相 当当 
个 主键 约束 了 ， ed 


HAE SS — 


Cassandra 0.7 加 入 了 对 第 二 索引 的 文 持 ， 该 版 才 


在 Cassandra 中 做 到 
存储 酒店 名 


要 
来 


， 并 将 它们 映射 到 酒店 的 ID。 


司 样 的 事情 ， 需 要 创建 男 一 个 列 


本 在 


已 经 发 布 了 。 


翻译 时 


索引 ， 目 前 Cassandra 作 


族 来 存储 查询 信 ， 


。 你 可 以 创建 一 个 列 族 


第 二 


"f 第 二 索引 目前 


正在 被 加 入 到 Cassandra 0.7 之 中 来 ， 人 允许 为 列 值 


列 族 实际 上 起 到 一 个 


显 式 的 第 二 索引 的 作用 。 


建立 索引 。 所 以 ， 如 果 你 


希望 找到 所 有 有 居住 在 指 
列 族 了 。 


定 城市 的 


3.8.4 ”排序 成 为 一 种 设计 决策 


户 ， 第 二 索引 的 支持 将 


会 让 你 不 必 费 力 手工 建立 第 二 索引 


在 RDBMS 中 ， 可 以 在 查询 中 使 用 ORDER BY 来 轻松 改变 返回 记录 的 顺序 。 默 认 的 排序 方法 确实 
是 不 可 配置 的 ;默认 情况 下 ， 记 录 按 照 它 们 写 入 的 顺序 被 读 出 。 如 果 和 希望 改变 顺序 ， 只 要 改变 
查询 语句 即 可 ， 而 且 可 以 对 任意 一 组 列 进行 排序 。 但 在 Cassandra 之 中 ， 排 序 就 不 同 了 ， 它 变 成 

了 一 个 设计 决策 。 列 族 的 定义 中 包含 一 个 CompareWith 配置 元 素 ， 这 个 配置 指定 了 行 在 读 出 
的 时 候 按照 什么 方式 排序 ， 它 在 查询 的 时 候 是 无 法 重新 配置 的 。 


RDBMS 限 制 你 只 能 基于 存储 在 列 中 的 数据 类 型 来 进行 排序 ， 但 Cassandra 存 储 的 数据 是 字 节 数 

组 ， 所 以 这 种 用 指定 数据 类 型 排序 的 方法 是 行 不 通 的 。 不 过 ， 你 能 做 的 是 把 列 当做 几 种 可 排序 
的 类 型 之 一 (ASCII `LONG `integer ^ TimestampUUID 、 字 典 排序 等 ) 。 如 果 需 要 ， 你 
还 可 以 使 用 自己 实现 的 比较 器 来 进行 排序 。 


此 外 ，Cassandra 里 没有 SQL 里 的 ORDER BY 和 GROUP BY 语句 。 有 一 个 查询 的 类 型 称 为 
SliceRange ， 在 第 4 章 里 会 介绍 到 ， 它 类 似 于 ORDER BY, 因为 它 允 许 翻转 。 


3.8.5 RÖR 


在 关系 型 数据 库 设 计 中 ， 我 们 经 常 强调 范式 化 的 重要 性 。 但 是 当 使 用 Cassandra 时 ， 这 就 不 是 一 

个 优点 了 ， 因 为 只 有 当 数 据 模 型 是 反 范 式 化 的 时 候 ， 它 的 性 能 才 是 最 好 的 。 实 际 上 ， 很 多 公司 
最 终 都 会 将 关系 型 数据 库 反 范式 化 ， 这 主要 有 两 个 原因 。 其 一 是 性 能 原因 ， 当 他 们 在 其 多 年 积 
累 的 海量 有 价值 的 数据 上 进行 大 量 的 join 操作 的 时 候 ， 无 法 得 到 所 需 的 性 能 ， 于 是 就 按照 已 知 的 
查询 内 容 来 反 范 式 化 数据 库 以 优化 查询 。 这 种 方法 最 终 可 以 工作 ， 但 和 关系 型 数据 库 的 设计 初 

衷 相悖 ， 最 终 引 发 的 问题 就 是 ， 在 这 种 条 件 下 ， 使 用 关系 型 数据 库 是 否 还 是 最 佳 手段 。 


关系 型 数据 库 进 行 反 范式 化 的 第 二 个 原因 是 业务 文档 结构 有 时 需要 留存 。 也 就 是 说 ， 你 有 一 个 
外 围 表 ， 引 用 了 很 多 的 外 部 表 ， OE EAH RES 化 ， 日 你 也 需要 以 快 站 形式 保存 
外 围 文 档 的 历史 。 常 见 的 一 个 例子 是 收 款 信 息 。 你 已 经 有 客户 和 产品 表 了 ， 而 且 认 为 可 以 在 收 
款 信息 里 引用 这 些 表 。 但 是 实际 不 应 该 这 么 做 ， 因 为 客户 和 价格 信息 都 可 能 发 生变 化 ， 那 时 你 
束 会 丢失 收 款 信息 的 完整 性 E SD PE 多 时 忆 发 生 了 ， 这 可 能 会 影响 到 审 
计 、 报 告 ， 甚 至 是 违法 的 ， 还 可 能 引发 其 他 问题 。 


在 关系 型 数据 库 里 ， 反 范式 化 会 破坏 Codd 的 范式 ， 我 们 需要 尽力 避免 。 但 在 Cassandra 中 ， 反 范 
式 化 却 正好 合乎 规则 。 它 在 数据 模型 很 简单 时 并 不 必要 ， 但 也 不 需要 害怕 它 。 


重点 在 于 ， 首 先 对 数据 建 模 、 然 后 再 写 查 询 的 方法 不 再 适用 了 。Cassandra 中 ， 应 该 先 定义 好 查 
询 ， 并 围绕 查询 来 组 织 数据 。 考 虑 一 下 应 用 使 用 的 最 基本 的 查询 路 径 ， 之 后 根据 查询 路 径 来 构 
建 所 需要 的 列 族 就 可 以 了 。 


批评 者 们 认为 这 是 个 非常 严重 的 问题 。 不 过 在 设计 数据 库 的 时 候 能 够 考虑 应 用 如 何 查询 也 并 非 
没有 道理 ， 实 际 上 ， 一 般 在 关系 型 数据 库 里 也 是 这 么 做 的 。 如 果 不 能 正确 预期 查询 方式 ， 那 么 
不 论 是 在 Cassandra 里 还 是 在 关系 型 数据 库 里 ， 都 会 遇 到 问题 当然， 查询 方式 可 能 会 随 着 时 间 
竹 移 而 改变 ， 那 么 就 不 得 不 更 新 数据 了 。 不 过 这 和 在 关系 型 数据 库 里 定义 表 时 犯错 或 需要 新 的 
加 表 也 没什么 区 别 。 
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Nd 


3.331 小 结 


本 章 ， 我 们 循序 渐进 地 讲解 了 Cassandra 的 数据 模型 ， 


各 时 间 协 议 NT TP) 服务 器 。 这 里 ， 也 有 一 些 聪明 人 问 我 ， 为 什么 不 让 服务 器 自己 管理 时 
Th? 我 的 回答 是 ， 这 是 一 个 对 称 分 布 式 数据 库 ， 服 务 端 实际 有 同样 的 问题 。 


包括 keyspace、 列 族 、 列 以 及 超级 列 等 概 


念 。 我 们 还 了 解 了 一 些 RDBMS 与 Cassandra 的 不 同 之 处 。 


第 4 章 


应 用 实例 


本 革 我 们 来 创建 一 个 完整 的 实例 ， 这 样 束 可 以 看 到 如 何 把 所 有 东西 放 在 一 起 。 我 们 将 使 用 各 个 


API 来 看 看 如 何 


插入 数据 ， 进 行 批量 更 新 ， 并 在 列 族 和 超级 列 族 中 搜索 。 


在 这 个 例子 中 ， 我 们 希望 使 用 足够 复杂 的 东西 ， 来 展示 不 同 的 数据 结构 和 基本 的 API 操 作 ， 但 又 
不 太 过 复杂 让 你 陷于 细 枝 末节 。 Ma 幸 里 得 到 足够 的 数据 来 让 搜索 正常 工作 (通过 找到 
所 需要 的 内 容 、 过 滤 不 需要 的 内 容 ) ， 预 装 入 数据 库 的 内 容 里 会 有 一 些 见 余 。 同 时 ， 我 希望 例 


子 建 立 在 一 个 大 家 都 熟悉 的 领域 ， NM 
这 个 应 用 是 怎么 回 事 。 


在 如 何 使 


Cassandra 工 作 上 ， 而 不 是 琢 魔 
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41 数据 模型 设计 


开始 构建 一 个 使 


造 一 系列 属性 正 交 的 表 ， 并 


用 关系 型 数据 库 的 数据 驱动 新 应 用 时 ， 


到 伏 本 章 中 的 代码 在 0.7 beta 1 版 本 中 测试 通过 。 当 读者 使 用 其 他 版 本 时 ， 可 能 会 由 于 API 的 
变动 ， 需 要 部 分 的 调整 。 


你 可 能 会 首先 对 应 用 领域 进行 建 模 ， 构 


外 部 键 引 用 其 他 表 里 的 相关 数据 。 现 在 ， 我 们 已 经 明白 Cassandra 


关系 模型 映射 至 


简单 地 说 ， 关 系 型 


Cassandra 的 分 布 式 哈 希 模型 。 


建 模 就 是 从 一 个 概念 域 开始 ， 然 后 在 表 中 表达 出 该 域 中 的 名 词 。 然 后 分 配 主 
键 和 外 部 键 来 对 关系 进行 建 模 。 当 明 到 多 对 多 的 关系 时 ， 就 需要 创建 联合 表 来 表达 这 些 键 值 。 


是 如 何 存 储 数据 的 了 ， 那 么 训 从 一 个 在 关系 模型 里 很 好 理解 的 小 的 领域 模型 开始 ， 然 后 将 它 从 


联合 表 在 真实 世界 中 并 个 存在 ， 它们 是 在 关系 模型 作 时 无 法 避免 的 副作用 。 当 所 有 的 表 都 排 


以 开始 写 查 询 了 ， 通 过 键 值 定义 的 关系 将 分 散 的 数据 聚拢 到 一 起 。 在 关系 型 世 


界 之 中 ， 查 询 是 非常 次 要 的 东西 。 关 系 模型 假设 ， 只 要 正确 地 建立 了 表 ， 总 能 获取 到 所 需要 的 


在 这 个 例子 里 ， 我 们 使 用 一 个 易于 理解 、 和 每 1 
JE o 
我 们 的 概念 域 包括 


酒店 、 入 住 的 客人 、 S PSEUDO ERR ELS 


数据 ， 即 使 这 是 以 使 用 很 多 复杂 的 子 查询 或 是 join 语句 为 代价 的 。 
相反 ，Cassandra 中 ， 不 是 从 数据 模型 开始 的 ， 而 要 从 查 


询 模 型 开始 。 


许 客人 进行 预定 的 酒 


客人 在 某 个 房间 采 的 一 段 时 间 〈 称 为 停留 时 间 ) 。 酒 店 一 般 都 会 保留 一 个 兴趣 点 的 集合 ， 包 括 


` 博物 馆 、 购物 场所 、 上 古迹 或 者 位 于 宾馆 附近 的 某 些 地 方 ， 游 客 可 能 会 在 停留 期 间 前 去 休 
宾馆 和 兴趣 点 都 需要 维护 地 理 信息 ， 这 样 可 以 在 地 图 上 查找 ， 或 是 计算 距离 。 
“能 显然 ， 在 真实 世界 里 要 考虑 的 事情 多 得 多 ， 也 复杂 得 多 。 比 如 ， 酒 店 的 房 费 总 是 在 不 
断 变 :化 的 计算 房 费 也 要 虐 种 不 同 费用 情况 。 这 里 ， 我 们 的 定义 会 足够 复杂 ， 让 例子 足 
够 有 趣 ， 也 能 触及 到 关键 点 上 ， 不 过 也 要 保持 简 "E 将 精力 集中 在 学 习 Cassandra 上 。 
现在 来 看 看 如 何 设 计 使 用 Cassandra 的 应 用 。 首 先 要 确定 查询 。 我 们 希望 做 如 下 这 些 事情 : 
。 在 指定 区 域 查 找 酒店 ; 
。 查询 指定 酒店 的 信息 ， 如 名 称 和 位 置 ; 
。 查找 指定 酒店 附近 的 兴趣 点 ，; 
。 查询 指定 时 间 范 围 的 可 用 房间 ; 
。 查找 房间 的 房 费 和 生活 设施 ; 
。 通过 输入 客户 信息 来 预定 选 定 的 房间 。 


4.2 酒店 应 用 的 关系 型 数据 库 设 计 


如 图 4-1 所 示 ， 我 们 可 以 用 一 个 关系 型 数 
模型 包含 两 张 联合 表 ， 以 解决 酒店 到 


兴趣 点 和 房 


居 库 模型 来 构建 这 个 简单 的 酒店 预定 系统 。 
房间 到 生活 设施 之 间 的 多 对 多 关系 。 


这 个 关系 型 


Reservation 


Guest 


RoomID 
HotellD 
RoomNumber 


Rate 


Description 


PointOflnterest HotelToPOI 
POIID HotellD. 
Name POIID 


GuestlD 
Name 
Email 


RoomToAmenity Amenity 
RoomlD AmenitylD 


AmenitylD Name 


图 4-1: 基于 RDBMS 的 简单 酒店 搜索 系统 
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H 


的 方法 可 能 不 止 一 种 ， 


Tm 


图 4- 


实现 这 个 应 


数据 模型 。 


2 中 ， 我 们 给 出 的 是 一 种 使 用 Cassandra 物 理 模 型 的 逻辑 


使 


<(F>Hotel 


<<RowKey>>#hotellD 


<(F>HotelByCity 


<<RowKey>>#city:state:hotellD 
十 hotel1 
十 hotel2 


Eo 
««SCE Roomvailablity 


««SuperColumnNamez £&hotellD 
<<RowKey>> +date 
+kk: «unspecified = 22 


<<(F>>Guest 


*qq: «unspecified» = 14 


«CF» Reservation 


<<RowKey>>#resID 
+hotellD 
+roomiD 
+phone 


<<RowKey>>#phone 
+fname 

+lname 

+email 


+name 
+arrive 
+depart 
+rate 
+ccNum 


图 4-2: 使 用 Cassandra 模 型 的 酒店 搜索 


在 Cassandra 里 ， 我 们 将 完成 和 之 前 的 关系 型 模型 设计 中 完全 术 
Guest 这 几 张 表 转 成 列 族 。 其 他 的 表 ， 如 PointofInteres 
模型 里 ， 你 可 以 用 SQL 通过 所 在 的 城市 


关系 型 


NT 


«SCF»PointOflnterest 


««SuperColumnNamez &hotellD 
««RowKeyz» #poiName 


««SuperColumnNamez &hotellD 


««RowKeyz» #roomlD 


进行 查找 。 


因 


要 创建 HotelByCcity 列 族 来 作为 索引 。 


I 
1 


LT XH , 


我 们 


的 。 


我 使 用 了 书 名 号 来 标 i 


， 其 他 如 热 水 浴 缸 (hot tub) 


同 的 功能 。 我 们 直接 
t ， 反 范式 化 为 一 个 超级 列 族 。 在 
为 Cassandra 里 没有 SQL ， 我 们 需 


l'Hotel ^ 


类 型 <<CF>> 表示 列 族 ，<<SCF>> 表示 超级 列 族 。 


把 房间 和 设施 都 放 到 了 Room 列 族 之 中 ， 类 型 (type) MER (rate) 列 分 别 存储 相应 的 内 


HE 
ds 


pig 
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L— 


有 相应 列 名 就 表示 存 厂 


ER 


应 的 设施 ， 否 则 这 列 就 是 空 


介绍 如 何 实现 上 述 设 计 。 这 可 以 将 很 多 不 同 的 API 功 


展示 Cassandra 之 中 可 以 用 上 的 不 同 思路 。 这 并 不 是 从 关系 


民 多 底层 的 工作 是 使 用 
所 以 尽管 基本 思路 没 


Thrift API 进 行 的 。 但 
本题， 但 在 实际 应 用 中 可 


J 的 第 三 方 Cassandra 客 户 DN 


多 可 | 


在 本 和 ， 我 们 会 从 头 到 尾 展示 一 遍 代 码 ， 习 
能 的 用 法 展示 出 来 。 
TS 这 个 示例 应 用 的 目的 就 在 于 
型 设计 迁移 到 Cassandra 模 型 上 的 唯一 方法 。 有 和 
Cassandra (可 能 ) 正 从 Thrift 向 Avro 进行 迁移 ， 
能 并 不 能 按照 这 个 例子 这 么 做 。 在 第 8 章 中 ， 我 们 介绍 了 逢 
可 以 依照 你 自己 的 应 用 开发 语言 和 其 他 需要 ， 来 选择 合适 的 客户 
创建 应 用 可 以 分 为 这 么 几 步 。 


1. 构建 数据 库 的 结构 。 


2. 在 数据 库 中 装 


存储 在 超级 允 


载 酒店 和 兴趣 点 的 数据 。 酒 店 的 数 


I 族 中 。 


E 


El 


存储 在 标准 


端 。 


的 列 族 中 ， 兴 趣 点 的 数据 则 


给 定 城市 ， 搜 索 一 组 酒店 的 列表 。 这 会 使 用 第 二 索引 。 

4. 选择 搜索 结果 中 的 一 个 酒店 ， 搜 索 酒 店 附近 的 兴趣 点 。 

5. 接 下 来 ， 通 过 在 Reservation 列 族 插 入 数据 来 预定 酒店 房间 的 工作 应 该 是 水 到 渠 成 了 ， 
留 给 读者 来 完成 

从 篇 幅 上 ， 我 们 无 法 实现 一 日 我 们 将 会 完整 介绍 主要 的 部 分 ， 完 成 全 部 实现 的 


工作 就 是 写 一 些 类 似 的 代码 HB 
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第 一 步 是 定义 schema。 本 例 ， 
客户 端 代码 来 进行 定义 。 


YAML 文 伯 
例 4-1: 


keyspaces: 


2:498: 


- name: Hotelier 


column families: 
- name: Hotel 
compare with: UTF8Type 


- name: HotelByCity 
compare with: UTF8Type 


- name: Guest 
compare with: BytesType 


- name: Reservation 
compare with: TimeUUIDType 


- name: PointOfInterest 
column type: Super 
compare with: UTF8Type 
compare subcolumns with: UTF8Type 

- name: Room 
column type: Super 
compare with: BytesType 
compare subcolumns with: BytesType 

- name: RoomAvailability 
column type: Super 
compare with: BytesType 
compare subcolumns with: BytesType 


个 完整 的 应 用 ， 但 


， 我 们 将 使 用 YAML 来 定义 schema， 


cassandra.yaml 中 的 schema 定 义 


1 


FE 要 的 keyspace 和 列 族 ， 如 例 4-1 所 示 。 


replica placement strategy: org.apache.cassandra.locator.Rack- 
UnawareStrategy replication factor: 


载 入 定义 ， 当 然 也 可 以 使 


这 个 定义 给 出 了 运行 这 个 例子 所 需 的 所 有 列 族 ， 而 且 其 中 有 一 些 我 们 在 应 用 代码 ， 未 用 到 ， 
天 因为 这 些 是 用 来 完成 RDBMS 设 计 一 样 的 功能 的 。 
加 载 schema 
在 YAML 里 定义 好 schema 之 后 ， 需 要 将 它们 装载 到 Cassandra 中 。 要 进行 装载 ， 首 先 打 开 一 个 控 
制 台 ， 运 行 JDK 提 供 的 jconsole 工 具 ， 使 用 JMX 和 连接 到 Cassandra ° 之 后 执行 
loadSchemaFromYAML 操作 ， 这 是 
org.apache.cassandra.service.StorageService MBean 的 一 部 分 。 现 在 Cassandra 已 
经 知道 shema 了 ， 就 可 以 开始 使 用 Cassandra 了 “。 你 也 可 以 直接 使 用 API 来 创建 keyspace 和 列 族 。 


44.2 ”数据 结构 


我 们 的 应 用 需要 一 些 标准 的 数据 结构 来 做 为 转换 对 象 。 这 些 并 不 是 非常 有 趣 ， 但 确 是 保持 条 理 
性 所 需要 的 。 我 们 将 使 用 一 个 Hotel 数据 结构 来 保存 所 有 有 关 酒 店 的 信息 ， 如 例 4-2 所 示 。 


例 4-2: Hotel.java 


am 


package com.cassandraguide.hotel; 


// 数 据 传输 对 象 

public class Hotel { 
public String id; 
public String name; 
public String phone; 
public String address; 
public String city; 
public String state; 
public String zip; 


) 
这 个 结构 就 是 用 来 保存 相应 的 列 信息 ， 以 方便 应 用 使 用 。 
我 们 还 有 一 个 POI 数据 结构 ， 用 于 保存 兴趣 点 的 信息 ， 如 例 4-3 所 示 。 


例 4-3: POLjava 


package com.cassandraguide.hotel; 


// 兴 趣 点 的 数据 传输 用 对 象 

public class POI ( 
public String name; 
public String desc; 
public String phone; 


} 


i 


还 有 一 个 Constants 类 ， 把 常用 的 字符 串 放 在 一 起 ， 易 于 修改 ， 如 例 4-4 所 示 。 


例 4-4: Constants.java 


package com.cassandraguide.hotel; 
import org.apache.cassandra.thrift.ConsistencyLevel; 
public class Constants { 


public static final String CAMBRIA NAME - "Cambria Suites Hayden"; 
public static final String CLARION NAME- "Clarion Scottsdale Peak"; 
public static final String W NAME - "The W SF"; 

public static final String WALDORF NAME - "The Waldorf-Astoria"; 


public static final String UTF8 - "UTF8"; 

public static final String KEYSPACE - "Hotelier"; 

public static final ConsistencyLevel CL - ConsistencyLevel.ONE; 
public static final String HOST - "localhost"; 

public static final int PORT - 9160; 


H 
把 常用 的 字符 串 保 存在 一 起 会 让 代码 更 加 干净 整洁 ， 而 且 你 也 可 以 方便 地 修改 这 些 字符 串 ， 来 
适应 应 环境 


4.4.3 ”进行 连接 


为 了 方便 ， 也 为 了 省 去 大 量 看 枯燥 无 味 的 代码 的 时 间 ， 我 们 把 连接 管理 的 代码 放 到 一 个 类 旦 
面 ， 叫 做 Connector ， 如 例 4-5 所 示 。 


例 4-5: 一 个 客户 端 连 接 辅 助 类 ，Connectorjava 


> 


HW 


package com.cassandraguide.hotel; 


import static com.cassandraguide.hotel.Constants.KEYSPACE; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.InvalidRequestException; 
import org.apache.thrift.TException; 

import org.apache.thrift.protocol.TBinaryProtocol; 

import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 

import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 

import org.apache.thrift.transport.TTransportException; 


// 简 单 的 辅助 类 ， 用 于 封装 连接 代码 ， 减 少 重复 输入 
public class Connector { 


TTransport tr = new TSocket("localhost", 9160); 


// 返回 一 个 到 keyspace 的 新 连接 
public Cassandra.Client connect() throws TTransportException, 
TException, InvalidRequestException ( 


TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tr.open(); 

client.set keyspace(KEYSPACE); 

return client; 


J 


public void close() { 
tr.close(); 
J 


" 
R 
i 


需要 执行 数据 库 操 作 时 ， 可 以 使 用 这 个 类 来 打 


开 一 个 连接 ， 当 操作 完成 时 也 可 以 使 


关闭 连接 ° 
4.4.4” 预 装填 数据 库 


2H 


例 4-6 所 示 的 Prepopulate 类 ， 进 行 大 批量 的 Insert flibatch mutate 操作 ， 将 供 
的 酒店 和 兴趣 点 的 信息 预 装 入 到 数据 库 当 中 。 


例 4-6: Prepopulate.java 
package com.cassandraguide.hotel; 


import static com.cassandraguide.hotel.Constants.CAMBRIA NAME; 
import static com.cassandraguide.hotel.Constants.CL; 

import static com.cassandraguide.hotel.Constants.CLARION NAME; 
import static com.cassandraguide.hotel.Constants.UTF8; 

import static com.cassandraguide.hotel.Constants.WALDORF NAME; 
import static com.cassandraguide.hotel.Constants.W NAME; 


import java.io.UnsupportedEncodingException; 
import java.util.ArrayList; 

import java.util.HashMap; 

import java.util.List; 

import java.util.Map; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.Clock; 

import org.apache.cassandra.thrift.Column; 

import org.apache.cassandra.thrift.ColumnOrSuperColumn; 
import org.apache.cassandra.thrift.ColumnParent; 

import org.apache.cassandra.thrift.ColumnPath; 

import org.apache.cassandra.thrift.Mutation; 

import org.apache.cassandra.thrift.SuperColumn; 

import org.apache.log4j.Logger; 


/* * 
* 装载 数据 库 的 初始 信息 
* 装填 列 族 和 超级 列 族 ， 包 括 酒 店 、 兴 趣 点 和 索引 数据 
巡 示 如 何 使 用 列 族 和 超级 列 族 的 batch_mutate 和 insert 操 作 


+o + Ro 


为 节省 空间 ， 省 略 了 代码 中 的 所 有 异常 相关 操作 
/ 


public class Prepopulate { 
private static final Logger LOG - Logger.getLogger(Prepopulate. 


class); 


private Cassandra.Client client; 
private Connector connector; 

// 在 构造 器 中 打开 连接 ， 这 样 就 不 必 重 复 打 开 连 接 了 
public Prepopulate() throws Exception { 


} 


connector = new Connector(); 
client - connector.connect(); 


void prepopulate() throws Exception ( 


J 


// 预 装载 酒店 数据 库 
insertAllHotels(); 


// 添 加 酒店 的 索引 ， 方 便 查询 
insertByCityIndexes(); 


// 预 装载 兴趣 点 数据 库 
insertAllPointsOfInterest() 


connector.close(); 


// 添 加 通过 城市 查找 酒店 的 索引 


public void insertByCityIndexes() throws Exception { 


} 


String scottsdaleKey = "Scottsdale:AZ"; 
String sfKey - "San Francisco:CA"; 
String newYorkKey - "New York:NY"; 


insertByCityIndex(scottsdaleKey, CAMBRIA NAME); 
insertByCityIndex(scottsdaleKey, CLARION NAME); 
insertByCityIndex(sfKey, W NAME); 
insertByCityIndex(newYorkKey, WALDORF NAME); 


// 使 用 无 值 列 模式 
private void insertByCityIndex(String rowKey, String hotelName) 


throws Exception { 
Clock clock - new Clock(System.nanoTime()); 


Column nameCol = new Column(hotelName.getBytes(UTF8), 
new byte[0], clock) 


ColumnOrSuperColumn nameCosc = new ColumnOrSuperColumn(); 
nameCosc.column - nameCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 


// 设 置 batch 
Map&ltString, Map&ltString, List&ltMutation>>> mutationMap = 
new HashMap&ltString, Map&ltString, List&ltMutation>>>(); 


Map&ltString, List&ltMutation»» muts = 

new HashMap&ltString, List&ltMutation»»(); 
List&ltMutation» cols = new ArrayList&ltMutation»(); 
cols.add(nameMut); 


String columnFamily - "HotelByCity"; 
muts.put(columnFamily, cols); 


// 外 层 映射 的 键 值 是 行 键 值 
// 内 层 映射 的 键 值 是 列 族 名 
mutationMap.put(rowKey, muts); 


// 创 建 列 的 描述 
ColumnPath cp = new ColumnPath(columnFamily); 
cp.setColumn(hotelName.getBytes(UTF8)); 


ColumnParent parent - new ColumnParent(columnFamily); 

// 这 里 ， 列 名 就 是 它 的 内 容 本 身 (所 以 值 是 空 的 ) 

Column col = new Column(hotelName.getBytes(UTF8), new byte[0], 
clock); 


client.insert(rowKey.getBytes(), parent, col, CL); 


LOG.debug("Inserted HotelByCity index for " + hotelName); 


ar 


) // 插 入 ByCity 索 引 结 


/ /POI :兴趣 点 
public void insertAllPointsOfInterest() throws Exception { 


LOG.debug("Inserting POIs."); 


insertPOIEmpireState(); 
insertPOICentralPark(); 
insertPOIPhoenixZoo(); 
insertPOISpringTraining(); 


LOG.debug("Done inserting POIs."); 
} 


private void insertPOISpringTraining() throws Exception { 
//Map&ltbyte[],Map&ltString, List&ltMutation»»» 
Map&ltbyte[], Map&ltstring, List&ltMutation»»» outerMap = 
new HashMap&ltbyte[], Map&ltString, List&ltMutation»»»(); 
List&ltMutation» columnsToAdd = new ArrayList&ltMutation»(); 


Clock clock - new Clock(System.nanoTime()); 
String keyName - "Spring Training"; 
Column descCol - new Column("desc".getBytes(UTF8), 
"Fun for baseball fans.".getBytes("UTF-8"), clock); 
Column phoneCol = new Column("phone".getBytes(UTF8), 
"623-333-3333".getBytes(UTF8), clock); 


List&ltColumn» cols = new ArrayList&ltColumn»(); 
cols.add(descCol); 
cols.add(phoneCol); 


Map&ltString, List&ltMutation»» innerMap - 
new HashMap&ltString, List&ltMutation»»(); 
Mutation columns - new Mutation(); 
ColumnOrSuperColumn descCosc = new ColumnOrSuperColumn(); 
SuperColumn sc - new SuperColumn(); 
Sc.name = CAMBRIA NAME.getBytes(); 
Sc.columns - cols; 


descCosc.super column - sc; 
columns.setColumn or supercolumn(descCosc); 


columnsToAdd.add(columns); 


String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family = superCFName; 

cp.setSuper column(CAMBRIA NAME.getBytes()); 
cp.setSuper columnIsSet(true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(keyName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Spring Training."); 


J 


private void insertPOIPhoenixZoo() throws Exception { 


Map&ltbyte[], Map&ltstring, List&ltMutation»»» outerMap = 
new HashMap&ltbyte[], Map&ltString, List&ltMutation»»»(); 
List&ltMutation» columnsToAdd = new ArrayList&ltMutation»(); 


long ts - System.currentTimeMillis(); 
String keyName - "Phoenix Zoo"; 
Column descCol - new Column("desc".getBytes(UTF8), 
"They have animals here.".getBytes("UTF-8"), new Clock(ts)); 


Column phoneCol = new Column("phone".getBytes(UTF8), 
"480-555-9999".getBytes(UTF8), new Clock(ts)); 


List&ltColumn» cols = new ArrayList&ltColumn»(); 
cols.add(descCol); 
cols.add(phoneCol); 


Map&ltString, List&ltMutation»» innerMap = 
new HashMap&ltString, List&ltMutation»»(); 


String cambriaName - "Cambria Suites Hayden"; 


Mutation columns - new Mutation(); 


ColumnOrSuperColumn descCosc = new ColumnOrSuperColumn(); 
SuperColumn sc - new SuperColumn(); 

sc.name = cambriaName.getBytes(); 

Sc.columns - cols; 


descCosc.super column - sc; 
columns.setColumn or supercolumn(descCosc); 


columnsToAdd.add(columns); 


String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family = superCFName; 

cp.setSuper column(cambriaName.getBytes()); 
cp.setSuper columnIsSet(true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(keyName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Phoenix Zoo."); 


J 


private void insertPOICentralPark() throws Exception { 


Map&ltbyte[], Map&ltString, List&ltMutation»»» outerMap = 
new HashMap&ltbyte[], Map&ltString, List&ltMutation»»»(); 
List&ltMutation» columnsToAdd = new ArrayList&ltMutation»(); 


Clock clock - new Clock(System.nanoTime()); 

String keyName - "Central Park"; 

Column descCol - new Column("desc".getBytes(UTF8), 
"Walk around in the park. It's pretty.".getBytes("UTF-8"), 
clock); 


// 公 园 没 有 电话 列 
List&ltColumn» cols = new ArrayList&ltColumn»(); 
cols.add(descCol); 


Map&ltString, List&ltMutation»» innerMap = 
new HashMap&ltString, List&ltMutation»»(); 


Mutation columns - new Mutation(); 

ColumnOrSuperColumn descCosc = new ColumnOrSuperColumn(); 
SuperColumn waldorfSC - new SuperColumn(); 

waldorfSC.name - WALDORF NAME.getBytes(); 
waldorfSC.columns - cols; 


descCosc.super column = waldorfSC; 
columns.setColumn or supercolumn(descCosc); 


columnsToAdd.add(columns); 


String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family = superCFName; 

cp.setSuper column(WALDORF NAME.getBytes()); 
cp.setSuper columnIsSet(true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(keyName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Central Park."); 
} 


private void insertPOIEmpireState() throws Exception { 


Map&ltbyte[], Map&ltSstring, List&ltMutation»»» outerMap = 
new HashMap&ltbyte[], Map&ltString, List>>(); 


List&ltMutation» columnsToAdd = new ArrayList&ltMutation»(); 


Clock clock - new Clock(System.nanoTime()); 

String esbName - "Empire State Building"; 

Column descCol - new Column("desc".getBytes(UTF8), 
"Great view from 102nd floor.".getBytes("UTF-8"), 
clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"212-777-7777" .getBytes(UTF8), clock); 
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List&ltColumn» esbCols = new ArrayList&ltColumn»(); 
esbCols.add(descCol); 
esbCols.add(phoneCol); 


Map&ltString, List&ltMutation»» innerMap - new HashMap&ltString, List 
&ltMutation»»(); 


Mutation columns - new Mutation(); 
ColumnOrSuperColumn descCosc - new ColumnOrSuperColumn(); 
SuperColumn waldorfSC - new SuperColumn(); 


waldorfSC.name - WALDORF NAME.getBytes(); 
waldorfSC.columns - esbCols; 


descCosc.super column = waldorfSC; 
columns.setColumn or supercolumn(descCosc); 


columnsToAdd.add(columns); 


String superCFName - "PointOfInterest"; 
ColumnPath cp - new ColumnPath(); 

cp.column family = superCFName; 

cp.setSuper column(WALDORF NAME.getBytes()); 
cp.setSuper columnIsSet(true); 


innerMap.put(superCFName, columnsToAdd); 
outerMap.put(esbName.getBytes(), innerMap); 


client.batch mutate(outerMap, CL); 


LOG.debug("Done inserting Empire State."); 


// 用 于 一 次 进行 所 有 插入 操作 的 辅助 方法 


public void insertAllHotels() throws Exception { 


} 


String columnFamily = "Hotel"; 
// 行 键 值 

String cambriaKey = "AZC 043"; 
String clarionKey = "AZS 011"; 


String wKey - "CAS 021"; 
String waldorfKey - "NYN 042"; 


// 辅 助 操作 
Map&ltbyte[], Map&ltString, List&ltMutation>>> cambriaMutationMap 
createCambriaMutation(columnFamily, cambriaKey); 


Map&ltbyte[], Map&ltString, List&ltMutation>>> clarionMutationMap 
createClarionMutation(columnFamily, clarionKey); 


Map&ltbyte[], Map&ltString, List&ltMutation>>> waldorfMutationMap 
createwaldorfMutation(columnFamily, waldorfKey); 


Map&ltbyte[], Map&ltString, List&ltMutation>>> wMutationMap = 
createwMutation(columnFamily, wKey); 


client.batch mutate(cambriaMutationMap, CL); 
LOG.debug("Inserted " + cambriaKey); 
client.batch mutate(clarionMutationMap, CL); 
LOG.debug("Inserted " + clarionKey); 
client.batch mutate(wMutationMap, CL); 
LOG.debug("Inserted " + wKey); 

client.batch mutate(waldorfMutationMap, CL); 
LOG.debug("Inserted " + waldorfKey); 


LOG.debug("Done inserting at " + System.nanoTime()); 


// 设 置 要 插入 的 W 的 各 列 
private Map&ltbyte[], Map&ltString, List&ltMutation>>> createwMutation( 


String columnFamily, String rowKey) 
throws UnsupportedEncodingException { 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol - new Column("name".getBytes(UTF8), 
W NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"415-222-2222".getBytes(UTF8), clock); 

Column addressCol - new Column("address".getBytes(UTF8), 
"181 3rd Street".getBytes(UTF8), clock); 

Column cityCol - new Column("city".getBytes(UTF8), 


"San Francisco".getBytes(UTF8), clock); 
Column stateCol = new Column("state".getBytes(UTF8), 
"CA".getBytes("UTF-8"), clock) 
Column zipCol - new Column("zip".getBytes(UTF8), 
"94103".getBytes(UTF8), clock) 


ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn(); 
phoneCosc.column = phoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColumn(); 
addressCosc.column - addressCol; 


ColumnOrSuperColumn cityCosc - new ColumnOrSuperColumn(); 
cityCosc.column - cityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn(); 
stateCosc.column - stateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column = zipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation() 
stateMut.column . 


or supercolumn - stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn = zipCosc; 


// 设 置 batch 
Map&ltbyte[], Map&ltString, List&ltMutation»»» mutationMap = 
new HashMap&ltbyte[], Map&ltString, List&ltMutation»»»(); 


Map&ltString, List&ltMutation»» muts = 
new HashMap&ltString, List&ltMutation»»(); 
List&ltMutation» cols = new ArrayList&ltMutation»(); 
cols.add(nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 
cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 


// 外 层 映射 是 行 键 值 

// 内 层 映射 是 列 族 名 
mutationMap.put(rowKey.getBytes(), muts); 
return mutationMap; 


yu vul 


} 


// 添 加 Waldorf 酒 店 到 Hotel 列 族 

private Map&ltbyte[], Map&ltString, List&ltMutation>>> createwaldorfMutation( 
String columnFamily, String rowKey) 
throws UnsupportedEncodingException { 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol - new Column("name".getBytes(UTF8), 
WALDORF. NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"212-555-5555",.getBytes(UTF8), clock); 

Column addressCol - new Column("address".getBytes(UTF8), 
"301 Park Ave".getBytes(UTF8), clock); 

Column cityCol - new Column("city".getBytes(UTF8), 
"New York".getBytes(UTF8), clock) 

Column stateCol = new Column("state".getBytes(UTF8), 
"NY".getBytes("UTF-8"), clock) 

Column zipCol - new Column("zip".getBytes(UTF8), 
"10019".getBytes(UTF8), clock) 


ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn(); 
phoneCosc.column = phoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColumn(); 
addressCosc.column - addressCol; 


ColumnOrSuperColumn cityCosc = new ColumnOrSuperColumn(); 
cityCosc.column - cityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn(); 
stateCosc.column - stateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column = zipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation(); 
stateMut.column or supercolumn - stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn = zipCosc; 


/ ix batch 
Map&ltbyte[], Map&ltString, List&ltMutation»»» mutationMap = 
new HashMap&ltbyte[], Map&ltString, List&ltMutation»»»(); 


Map&ltString, List&ltMutation»» muts = 
new HashMap&ltString, List&ltMutation»»(); 
List&ltMutation» cols = new ArrayList&ltMutation»(); 
cols.add(nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 
cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 


// 外 层 映射 是 行 键 值 

// 内 层 映射 是 列 族 名 
mutationMap.put(rowKey.getBytes(), muts); 
return mutationMap; 
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// 设 置 Clarion 要 插入 的 各 列 

private Map&ltbyte[]，Map&ltString，List&ltMutation>>> createClarionMutation( 
String columnFamily, String rowKey) 
throws UnsupportedEncodingException { 


Clock clock - new Clock(System.nanoTime()); 


Column nameCol - new Column("name".getBytes(UTF8), 
CLARION NAME.getBytes("UTF-8"), clock); 

Column phoneCol = new Column("phone".getBytes(UTF8), 
"480-333-3333".getBytes(UTF8), clock); 

Column addressCol - new Column("address".getBytes(UTF8), 
"3000 N. Scottsdale Rd".getBytes(UTF8), clock); 
Column cityCol - new Column("city".getBytes(UTF8), 
"Scottsdale".getBytes(UTF8), clock) 

Column stateCol - new Column("state".getBytes(UTF8), 
"AZ".getBytes("UTF-8"), clock) 

Column zipCol - new Column("zip".getBytes(UTF8), 
"85255".getBytes(UTF8), clock); 


ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - nameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn(); 
phoneCosc.column = phoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColumn(); 
addressCosc.column - addressCol; 


ColumnOrSuperColumn cityCosc - new ColumnOrSuperColumn(); 
cityCosc.column - cityCol; 


} 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn(); 
stateCosc.column - stateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column = zipCol; 


Mutation nameMut - new Mutation(); 
nameMut.column or supercolumn - nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn = phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation() 
stateMut.column or supercolumn - stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


// 设 置 batch 
Map&ltbyte[], Map&ltString, List&ltMutation>>> mutationMap = 
new HashMap&ltbyte[], Map&ltString, List&ltMutation>>>(); 


Map&ltString, List&ltMutation>> muts = 
new HashMap&ltString, List&ltMutation>>(); 
List&ltMutation» cols = new ArrayList&ltMutation»(); 
cols.add(nameMut); 
cols.add(phoneMut); 
cols.add(addressMut); 
cols.add(cityMut); 
cols.add(stateMut); 
cols.add(zipMut); 


muts.put(columnFamily, cols); 


// 外 层 映射 是 行 键 值 

// 内 层 映射 是 列 族 名 
mutationMap.put(rowKey.getBytes(), muts); 
return mutationMap; 


// 设 置 要 插入 的 Cambria 的 各 列 


private Map&ltbyte[], Map&ltString, 


"state". 


String columnFamily, String cambriaKey) 
throws UnsupportedEncodingException { 


// 设 置 Cambria 的 各 列 
Clock clock = new Clock(System.nanoTime()); 


Column cambriaNameCol - new Column("name".getBytes(UTF8), 
"Cambria Suites Hayden".getBytes("UTF-8"), clock) 

Column cambriaPhoneCol = new Column("phone".getBytes(UTF8), 
"480-444-4444" .getBytes(UTF8), clock); 

Column cambriaAddressCol = new Column("address".getBytes(UTF8), 
"400 N. Hayden".getBytes(UTF8), clock); 

Column cambriaCityCol - new Column("city".getBytes(UTF8), 
"Scottsdale".getBytes(UTF8), clock) 

Column cambriaStateCol - new Column( 


getBytes(UTF8), 

"AZ".getBytes("UTF-8"), clock) 

Column cambriaZipCol = new Column("zip".getBytes(UTF8), 
"85255".getBytes(UTF8), clock); 


ColumnOrSuperColumn nameCosc - new ColumnOrSuperColumn(); 
nameCosc.column - cambriaNameCol; 


ColumnOrSuperColumn phoneCosc = new ColumnOrSuperColumn(); 
phoneCosc.column - cambriaPhoneCol; 


ColumnOrSuperColumn addressCosc - new ColumnOrSuperColumn(); 
addressCosc.column - cambriaAddressCol; 


ColumnOrSuperColumn cityCosc = new ColumnOrSuperColumn(); 
cityCosc.column - cambriaCityCol; 


ColumnOrSuperColumn stateCosc = new ColumnOrSuperColumn(); 
stateCosc.column - cambriaStateCol; 


ColumnOrSuperColumn zipCosc - new ColumnOrSuperColumn(); 
zipCosc.column = cambriaZzipCol; 


Mutation nameMut - new Mutation(); 


List&ltMutation»»» createCambriaMutation( 


个 例子 有 点 长 ， 给 出 了 比 “Hello, world” 更 多 的 信息 
的 jnsert 和 batch_mutate MRE » B 
也 复杂 一 些 。 


nameMut.column or supercolumn = nameCosc; 
Mutation phoneMut - new Mutation(); 
phoneMut.column or supercolumn - phoneCosc; 
Mutation addressMut - new Mutation(); 
addressMut.column or supercolumn - addressCosc; 
Mutation cityMut - new Mutation(); 
cityMut.column or supercolumn - cityCosc; 
Mutation stateMut - new Mutation() 
stateMut.column or supercolumn - stateCosc; 
Mutation zipMut - new Mutation(); 
zipMut.column or supercolumn - zipCosc; 


// 设 置 batch 
Map&ltbyte[], Map&ltString, List&ltMutation>>> cambriaMutationMap = 
new HashMap&ltbyte[], Map&ltString, List&ltMutation>>>(); 


Map&ltString, List&ltMutation>> cambriaMuts = 
new HashMap&ltString, List&ltMutation>>(); 
List&ltMutation» cambriaCols = new ArrayList&ltMutation>(); 
cambriaCols.add(nameMut); 
cambriaCols.add(phoneMut); 
cambriacols.add(addressMut); 
cambriaCcols.add(cityMut); 
cambriaCols.add(stateMut); 
cambriaCcols.add(zipMut); 


cambriaMuts.put(columnFamily, cambriaCols); 


// 外 层 映射 是 行 键 值 

// 内 层 映射 是 列 族 名 
cambriaMutationMap.put(cambriaKey.getBytes(), cambriaMuts); 
return cambriaMutationMap; 


例子 中 包含 很 多 普通 列 族 和 超级 列 族 
我 刻意 选择 了 多 行 不 同类 型 的 数据 ， 这 样 会 让 查询 


F 


这 个 应 


会 首先 运行 这 个 类 ， NE RUUIADUTSRB. HumpeBSLASISPUBIUERS, M 


而 可 以 用 这 些 数据 进行 搜索 了 


4.4.5 


搜索 应 用 


例 4-7 是 可 供 执 行 的 带 有 main 方法 的 Java 类 。 它 依赖 于 Log4J 来 输出 信息 ， 所 以 ， 在 运行 前 可 以 
先 设置 log4j. M AUS 你 需要 做 的 所 有 事 : 


m 


发 ， 随 后 数据 库 束 会 预 装 入 所 有 


§ 情 就 是 运行 这 


import 
import 


import 
import 


import 
import 
import 
import 
import 
import 
import 
import 
import 
import 


A, 
的 酒店 和 兴趣 点 信息 。 之 后 ， 程序 让 用 户 查找 指定 城市 中 的 酒店 。 用 
n 如 果 你 有 兴趣 ， 可 以 在 这 个 程序 的 基础 上 ， 继 续 实 现 应 用 的 其 他 部 分 
ES E LN 


例 4-7: 


package com.cassandraguide.hotel; 


户 选择 一 个 酒店 后 ， 程 序 


预定 房间 的 功能 。 


HotelApp.java 


static com.cassandraguide.hotel.Constants.CL; 
static com.cassandraguide.hotel.Constants.UTF8; 


java.util.ArrayList; 
java.util.List; 


org.apache.cassandra.thrift.Cassandra; 
org.apache.cassandra.thrift.Column; 
org.apache.cassandra.thrift.ColumnOrSuperColumn; 
org.apache.cassandra.thrift.ColumnParent; 
org.apache.cassandra.thrift.KeyRange; 
org.apache.cassandra.thrift.KeySlice; 
org.apache.cassandra.thrift.SlicePredicate; 
org.apache.cassandra.thrift.SliceRange; 
org.apache.cassandra.thrift.SuperColumn; 
org.apache.10g4j.Logger; 


/** 
* 运行 酒店 应 用 。 在 数据 库 预 装载 后 ， 这 个 类 会 模拟 一 个 用 户 交 互 行为 ， 
* 搜索 一 个 城市 中 的 酒店 ， 选 择 其 中 一 个 ， 然 后 查看 酒店 周围 的 兴趣 点 。 


* 


这 个 类 中 会 展示 具体 化 视图 模式 、get 、get_range_slice、key slices 


+o + Ro 


为 了 简化 代码 ，main 方 法 会 直接 抛 出 下 列 异 常 : 

UnsupportedEncodingException, 

InvalidRequestException, UnavailableException, TimedOutException, 
TException, NotFoundException, InterruptedException 


对 于 一 些 常用 字符 串 ， 使 用 了 Constants 类 。 
*/ 


public class HotelApp { 
private static final Logger LOG - Logger.getLogger(HotelApp.class); 


public static void main(String[] args) throws Exception { 


// 先 把 所 有 数据 放 入 数据 库 
new Prepopulate().prepopulate(); 


LOG.debug("** Database filled. **"); 


// 现 在 运行 客户 端 
LOG.debug("** Starting hotel reservation app. **"); 
HotelApp app - new HotelApp(); 


// 通 过 城市 来 查找 酒店 ， 尝 试 Scottsdale 或 是 纽约 

List&ltHotel> hotels = app.findHotelByCity("Scottsdale", "AZ"); 
//List&ltHotel» hotels = app.findHotelByCity("New York", "NY"); 
LOG.debug("Found hotels in city. Results: " + hotels.size()); 


// 选 择 一 个 
1 h = 


Hotel h hotels.get(0); 


LOG.debug("You picked " + h.name); 
// 查 找 酒店 周边 的 兴趣 点 


LOG.debug("Finding Points of Interest near " + h.name); 
List&ltPOI» points - app.findPOIByHotel(h.name); 


// 选 择 一 个 兴趣 点 

POI poi = points.get(0); 

LOG.debug("Hm... " + poi.name + ". " + poi.desc + "--Sounds fun!"); 
LOG.debug("Now to book a room. .."); 


// 显 示 有 空房 的 日 期 
// 留 为 练习 .. ， 

// 预 定 房间 
// 留 作 练习 .. ， 
LOG.debug("All done."); 
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// 使 用 列 分 片 来 读 取 超 级 列 
public List&ltPoI> findPOIByHotel(String hotel) throws Exception { 


/// 查 询 

SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(hotel.getBytes()); 
sliceRange.setFinish(hotel.getBytes()); 
predicate.setSlice range(sliceRange); 


// 读 取 这 行 的 所 有 列 
String scFamily = "PointOfInterest"; 
ColumnParent parent - new ColumnParent(scFamily); 


KeyRange keyRange - new KeyRange(); 
keyRange.start key - "".getBytes() 
keyRange.end key "".getBytes(); 

List&ltPOI» pois new ArrayList() 


// 取 出 的 不 是 一 个 简单 的 列表 ， 而 是 一 个 映射 ， 映射 的 键 值 是 行 键 值 

// 值 是 行 键 值 对 应 的 列 的 列表 

// 只 有 行 键 值 十 第 一 列 是 有 索引 的 

Connector cl = new Connector(); 

Cassandra.Client client - cl.connect(); 

List&ltKeySlice» slices - client.get range slices( 
parent, predicate, keyRange, CL); 


for (KeySlice slice : slices) ( 


List&ltColumnOrSuperColumn» cols = slice.columns; 


POI poi - new POI(); 
poi.name - new String(slice.key); 


for (ColumnOrSuperColumn cosc : cols) { 
SuperColumn sc - cosc.super column; 


List&ltColumn» colsInSc - sc.columns; 


for (Column c : colsInSc) { 
String colName - new String(c.name, UTF8); 
if (colName.equals("desc")) { 
poi.desc - new String(c.value, UTF8); 


if (colName.equals("phone")) ( 
poi.phone - new String(c.value, UTF8); 


} 

LOG.debug("Found something neat nearby: " + poi.name + 
", NnDesc: " + poi.desc + 
", NnPhone: " + poi.phone); 


pois.add(poi); 
j 


cl.close(); 
return pois; 


// 使 用 键 值 区 间 
public List&ltHotel» findHotelByCity(String city, String state) 
throws Exception { 


LOG.debug("Seaching for hotels in " + city + ", " + state); 
String key = city + ":" + state.toUpperCase(); 
/// 查 询 


SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(new byte[0]); 
sliceRange.setFinish(new byte[0]); 
predicate.setSlice range(sliceRange); 

// 读 取 行 中 的 所 有 列 
String columnFamily 
ColumnParent parent 


- "HotelByCity"; 

= new ColumnParent(columnFamily); 
KeyRange keyRange - new KeyRange(); 

eyRange.setStart key(key.getBytes()); 

eyRange.setEnd key((key*1).getBytes()); // 键 值 区 间 外 一 点 
eyRange.count = 5; 


Connector cl - new Connector(); 

Cassandra.Client client - cl.connect(); 

List&ltKeySlice» keySlices - 

client.get range slices(parent, predicate, keyRange, CL); 


List&ltHotel» results = new ArrayList&ltHotel»(); 


for (KeySlice ks : keySlices) ( 
List coscs - ks.columns; 
LOG.debug(new String("Using key " + ks.key)); 


for (ColumnOrSuperColumn cs : coscs) { 


Hotel hotel - new Hotel(); 

hotel.name new String(cs.column.name, UTF8); 
hotel.city - city; 

hotel.state - state; 


results.add(hotel); 
LOG.debug("Found hotel result for " + hotel.name); 


} 


// 查 询 结束 
cl.close(); 


return results; 


我 在 代码 中 插入 了 零散 的 注释 ， 以 解释 每 段 代码 的 用 
程序 运行 的 输出 如 例 4-8 所 示 。 
例 4-8: 酒店 应 用 运行 的 输出 
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DEBUG 09:49:50,858 Inserted AZC 043 

DEBUG 09:49:50,861 Inserted AZS 011 

DEBUG 09:49:50,863 Inserted CAS 021 

DEBUG 09:49:50,864 Inserted NYN 042 

DEBUG 09:49:50,864 Done inserting at 6902368219815217 

DEBUG 09:49:50,873 Inserted HotelByCity index for Cambria Suites Hayden 
DEBUG 09:49:50,874 Inserted HotelByCity index for Clarion Scottsdale Peak 
DEBUG 09:49:50,875 Inserted HotelByCity index for The W SF 

DEBUG 09:49:50,877 Inserted HotelByCity index for The Waldorf-Astoria 
DEBUG 09:49:50,877 Inserting POIs. 

DEBUG 09:49:50,880 Done inserting Empire State. 

DEBUG 09:49:50,881 Done inserting Central Park. 

DEBUG 09:49:50,885 Done inserting Phoenix Zoo. 

DEBUG 09:49:50,887 Done inserting Spring Training. 

DEBUG 09:49:50,887 Done inserting POIs. 

DEBUG 09:49:50,887 ** Database filled. ** 

DEBUG 09:49:50,889 ** Starting hotel reservation app. ** 

DEBUG 09:49:50,889 Seaching for hotels in Scottsdale, AZ 

DEBUG 09:49:50,902 Using key [B015e9756 

DEBUG 09:49:50,903 Found hotel result for Cambria Suites Hayden 

DEBUG 09:49:50,903 Found hotel result for Clarion Scottsdale Peak 

DEBUG 09:49:50,904 Found hotels in city. Results: 2 

DEBUG 09:49:50,904 You picked Cambria Suites Hayden 

DEBUG 09:49:50,904 Finding Points of Interest near Cambria Suites Hayden 
DEBUG 09:49:50,911 Found something neat nearby: Phoenix Zoo. 

Desc: They have animals here.. 

Phone: 480-555-9999 

DEBUG 09:49:50,911 Found something neat nearby: Spring Training. 

Desc: Fun for baseball fans.. 

Phone: 623-333-3333 

DEBUG 09:49:50,911 Hm... Phoenix Zoo. They have animals here.--Sounds fun! 
DEBUG 09:49:50,911 Now to book a room... 

DEBUG 09:49:50,912 All done. 


提示 一 下 ， 通常 不 ` 需 要 直接 写 Thrift 或 是 Avro， 而 应 该 使 用 第 8 章 给 出 的 某 个 客户 端 。 这 个 例子 


的 目的 是 解释 使 用 Cassandra 工 作 的 一 些 具体 情况 ， 并 展示 一 个 完整 可 
插入 、 查 询 的 ， 就 像 在 现实 世界 使 一 样 。 


4.5 "Twissandra 


用 的 应 用 是 如 何 进行 各 种 


当 你 开始 研究 如 何 用 Cassandra 进 行 设计 的 时 候 ， 可 以 先 看 看 Eric Florenzano 写 的 Twissandra。 这 


当 
是 一 个 可 以 工作 的 Twitter 的 克隆 ， 在 http://www.twissandra.com 下 载 


试用 


。 源 代码 是 用 muss 


写 的 ， 有 一 些 对 Django 和 JSON 库 的 依赖 关系 需要 解决 ， 不 过 仍然 是 个 很 不 错 的 起 点 。 这 里 可 以 


个 简单 的 Cassandra 数 据 模 型 当中 的 。 


Eric Evans 有 一 篇 非常 不 错 的 博客 文章 ， 介 绍 了 如 何 使 用 Twissandra， 
http://www.rackspacecloud.com/blog/2010/05/12/cassandra-by-example 
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译注 1: 


对 者 曾 翻译 过 此 篇 文章 ， 位 于 http://wangxu.me/blog/p/383 ° 


46 ”小结 
本 章 我 们 学 习 了 如 何 创建 一 个 完整 可 用 的 Cassandra 应 用 。 我 们 对 比 了 


o 


使 用 你 非常 熟悉 的 数据 模型 (如 Twitter 的 ) ， 看 到 其 中 的 用 户 、 时 间 线 、 消 


息 等 是 如 何 放 到 一 


这 篇 文章 位 于 


^N B 


人 


型 的 关系 模型 ， 展 


未 了 如 何在 Cassandra 中 完成 同样 的 工作 并 且 介绍 了 和 数据 库 交 互 的 多 种 方法 。 


第 5 章 ”Cassandra 的 架构 


在 本 章 中 ， 我 们 将 探讨 Cassandra 的 内 部 设计 ， 以 便 理解 它 是 如 何 工 作 的 。 我 们 将 剖析 Cassandra 
的 P2P 设 计 ， 以 及 对 应 的 gossip 协 议 ，Cassandra 如 全 可 处 理 读 写 请 求 ， 并 研究 这 些 设计 抉择 是 如 何 
影响 Cassandra 的 架构 性 考虑 的 ， 这 些 考 虑 包括 可 扩展 性 、 持 久 性 、 可 用 性 、 可 管理 性 等 。 我 们 
的 分 阶段 事件 驱动 架构 ， 这 种 架构 在 Cassandra 中 是 作为 请 求 代理 平台 
Cassandra 的 架构 非常 精巧 ， 构 建 于 多 种 理论 结构 之 上 。 在 讨论 这 里 的 新 名 词 时 ， 可 能 会 不 可 如 
免 地 引用 其 他 还 出 现 过 的 新 名 词 。 这 确实 有 点 让 人 泪 来 ， 因 此 我 在 本 书 的 最 后 加 入 了 一 个 词汇 
表 ， 以 作 参 考 。 
5.1 system keyspace 
Cassandra 有 一 个 称 为 System 的 内 部 keyspace， 用 于 存储 关于 集群 的 原 数据 ， 以 帮助 各 种 操作 顺 
利 进行 。 在 微软 的 SQL Server 中 ， 同样 维护 着 两 个 元 数据 库 ， master 和 tempdb » master 用 
于 保存 伐 盘 空间 、 使 用 率 、 系 统 设置 以 及 一 般 性 的 服务 安装 信息 ， 而 tempdb 则 是 一 个 工作 空 
间 ， 用 于 存储 中 间 结 果 和 完成 一 般 性 任务 的 。Oracle 数 据 库 也 有 一 个 称 为 SYSTENM 的 表 空间 ， 
作 类 似 用 途 。Cassandra 的 System keyspace 的 用 途 与 这 些 数 据 库 非 常 类 似 。 
特别 指出 ，system keyspace 不 仅 存 储 了 用 于 本 地 节点 的 元 数据 ， 也 存储 提示 切换 信息 。 这 些 元 
数据 包括 : 

。 市 点 令 牌 ; 

。 集群 名 ; 

。 用 于 文 持 动态 装载 的 keyspace 和 schema 的 定义 ; 

。 迁移 数据 ; 

。 市 点 是 否 自 举 成 功 。 
schema 的 定义 存储 于 两 个 列 族 之 中 : Schema 列 族 保存 用 户 的 keyspace 和 schema 的 定义 ， 而 
Migrations 列 族 则 用 于 记录 对 keyspace 的 变更 。 
system keyspace 是 无 法 手工 修改 的 。 
5.2 ”对 等 结构 
在 传统 的 多 节点 部 署 的 数据 库 (如 MySQL) ， 甚 至 是 使 用 较 新 模型 的 数据 库 产 品 (如 Google 的 
Bigtable) 中 ， 某 些 节 点 会 被 设计 为 主 节 点 ， 其 他 节点 则 作为 从 节点 。 它 们 在 集群 中 扮演 不 同 的 
fats. 主 节点 具有 对 数据 的 控制 权 ， 从 节点 与 主 节点 进行 数据 同步 。 任 何 变 更 都 会 写 入 主 节 
Fh. JERGET TOSS MD A BUMBUS EOS RR LLUR. 因为 它 允 许 客 户 端 从 任意 一 个 从 
方 点 读 取信 息 。 但 是 在 这 个 模型 中 ， 数 据 复 制 是 从 主 到 从 单 向 的 。 这 带 来 的 一 个 严重 后 果 就 
是 ， 所 有 写 操 作 都 必须 送 到 主 节 点 ， 也 就 是 说 ， 存 在 一 个 潜在 的 单 点 故障 。 在 主 /从 设置 情况 
下 ， 主 节点 掉 线 的 后 果 会 很 严重 。 


Cassandra 与 此 相反 ， 采 用 了 对 等 结构 (P2P) 的 分 布 式 模型 。 在 这 个 模型 中 ， 从 结构 上 说 ， 所 
有 世上 点 的 地 位 都 彼此 相同 ， 也 就 是 说 ， 没 有 主 从 节点 的 差别 。 Cassandra 的 设计 站 标 就 是 整个 系 
统 的 可 用 性 和 可 扩展 性 。P2P 设 计 可 以 增强 整个 数据 库 的 可 用 性 ， 因 为 虽然 任意 Cassandra 世 点 
掉 线 都 可 能 会 影响 系统 的 整体 春 叶 有 E 力 ， 但 这 是 一 个 非常 缓和 的 降 质 过 程 ， 不 会 中 断 服务 。 如 
果 使 用 了 合理 的 副本 复制 策略 ， 故 障 节 点 上 的 所 有 数据 将 仍然 可 以 被 读 写 。 

这 种 设计 还 让 Cassandra 更 加 易于 通过 增加 节点 来 扩展 系统 。 因 为 所 有 节点 的 行为 是 相同 的 ， 要 
增加 新 的 服务 器 ， 只 要 简单 地 把 节点 加 入 集群 就 可 以 了 。 新 节点 不 会 立 刻 开始 接受 请 求 ， ES 
有 一 定时 间 } 于 学 习 整 个 环 的 拓扑 ， 并 接收 它 可 能 将 要 负责 的 数据 。 在 这 之 后 ， 它 就 可 以 加 入 
这 个 环 并 开始 接受 请 求 了 。 这 是 一 个 非常 自动 化 的 过 程 ， 只 需要 极 少 的 配置 工作 。 因 此 ， 相 比 
于 主 /从 副本 复制 模式 ，P2P 设 计 让 规模 增长 和 缩减 都 更 加 容易 。 


5.3 ”gossip 与 故障 检测 


为 了 做 到 无 中 心 、 容 忍 网 络 分 裂 ，Cassandra 使 


一 次 。 提 示 移 交 


样 每 个 节点 都 会 有 其 他 市 点 的 状态 


Eo 


正好 有 关于 这 个 节点 的 提示 信 


过 程 ， 不 是 由 gossip 触 发 的 。 
(流言 协议 ， 有 时 也 叫做 “传染 协议 ”) 


gossip 协 议 
无 
传 
方式 。 


中 心 的 网 络 系 
ES (gossip) 的 概念 ， 


d “gossip 协 议 ” 这 
Demer 发 明 的 ， 他 当时 正在 研究 不 可 靠 网 络 


中 的 gossip 协 议 主 


统 ， 经 


Pa 


时 3 


就 会 和 


圣 常 作为 分 布 式 数据 库 中 的 


CS 


HA *gossiper (Jii 
hinted handoff) 是 由 gossip 触 发 的 ， 当 一 个 节点 发 现 另 
发 提示 移交 。 


gossip (流言 


) 在 


了 一 个 


X 


Fi 


) 协议 来 进行 环 内 通信 ， 
定时 器 的 控制 之 下 ， 每 秘 Hur 


—ÀANdÉE 


节点 重新 在 线 ， 而 


， 通 常 假设 网 络 是 不 可 靠 的 ， 


个 名 词 是 1987 年 


是 一 种 节点 可 以 按照 E 


种 
己 的 期 望 ， 


自动 数据 


当时 施乐 公 


3 


个 类 用 于 和 


EP TH 


本 地 


J A 


i3 来 接收 端点 状态 信息 
因为 Cassandra 的 gossip 会 月 


死活 信息 。 


D^ 


gossiper 是 这 样 工作 的 。 
1. G= gossiper (按照 TimerTask 的 设置 ) 周期 性 地 运行 ， 在 环 里 随机 选择 一 个 节点 ， 发 起 对 


这 个 节点 的 gossip 会 话 。 
2. gossip 的 发 起 者 


FT 


当 伙伴 节点 收 到 消 


VAN 


的 gossip 通 信 


于 故障 检测 ， 


当 一 个 服务 节点 启动 后 ， 


所 以 Gossiper 类 会 


与 提示 移交 不 同 ， 


副本 复制 机 制 。gossip 得 
自行 选择 与 之 交换 信息 的 市 点 的 通 


逆 粹 是 一 个 手动 


AE 


= Hl] 
TH 


见于 大 规模 、 
名 于 流 


m 


Y 司 帕 洛 阿尔 托 研究 中 心 的 研究 员 Alan 
中 的 路 由 信息 传播 方法 。 


要 是 在 org , cassandra.gms.Gossiper 类 中 实现 的 ， 


它 会 把 


自己 注 


册 到 gossiper 


e 


维 # 


一 个 节 


J 点 列表 3 


FERETI AN 


E 


每 轮 gossip 需 要 三 条 消 , 


o 
DA 


时 ， 回 复 一 条 GossipDigestAckMessage ° 


4. 发 起 者 收 到 伙伴 发 回 的 响应 消息 后 ， 再 向 伙伴 
， 以 此 完成 本 轮 gossip。 
当 gossiper 发 现 一 个 端点 已 经 死亡 的 上 时候， 就 会 通过 在 它 本 地 的 列表 中 将 i 


对 这 个 节点 “宣判 ”， 


并 会 j 


Lk 


JDN 
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选 好 的 伙伴 节点 发 送 一 条 GossipDigestSynMessage 。 


发 送 一 条 GossipDigestAck2- Message 


这 个 节点 标记 为 死亡 来 


Cassandra 的 故障 检测 非常 强健 
法 。 这 种 故障 检测 机 制 是 在 2004 年 由 日 


号 测 基于 两 个 基本 : 
的 应 月 


增 量 故障 检 
与 被 监测 


使 用 了 一 个 在 分 布 式 计算 领域 


中 非常 流 1 


本 先进 科学 技术 下 


H 


统 方法 使 
但 是 增 量 


Si: 


中 间 的 位 
故 


uu. 


的 指示 ， 判 断 或 强 或 弱 的 故障 可 和 


de 可 以 在 这 


量 故障 检测 | 的 论文 。 


引路 。 第 一 个 整 
昌 解 而 来 实现 。 
简单 的 “心跳 ”机 
故障 检测 认为 这 种 


Dol 


方法 过 于 幼稚 ， 与 由 


而 第 二 个 思路 ， 


究 所 


来 判断 节点 是 否 


YE 


不 同 ， 


死活 


障 监测 系统 会 根据 对 节点 发 生 故 障 的 确信 程度 ， 输 出 一 个 连 给 
种 方法 的 优点 是 ， 它 将 网 络 环境 的 波动 性 
一 个 节点 已 经 死 了 。 嫌疑 级 别 会 基于 观 六 


| (心跳 的 采样 


S 


考虑 在 内 了 “。 例 如 ， 


口 


FN 
LH 


因为 丢失 


首先 提出 的 。 


本 思路 是 ， 故障 检测 应 该 是 灵活 的 ， 

是 一 个 有 别 于 传统 故障 检测 的 更 
通过 能 否 收 到 |， 
E12: E 


了 的 Phi 增 量 故 障 检测 算 


这 通过 将 算法 


心跳 判断 节点 是 
PT RS A2 RFRA 


KNER: AREE A, 


新颖 的 思路 ， 传 
REJ ° 


U^ 


这 


个 连接 并 不 能 确定 


从 盏 


来 得 


o — 


ERE. 


oR i WGE 


的 死活 断 


mi 


加 连续 的 、 


里 http://ddg.jaist.ac.jp/pub/HDY+04.pdf 阅读 Naohiro Hayashibara 等 人 关于 Ph 这 


具有 前 摄 作 


Cassandra 中 的 故障 检测 在 org.apache,cassandra.gms,FailureDetector 类 中 实现 ， 这 


个 类 实现 了 org ,apache.cassandra.gms.IFailureDetector 接 


如 下 操作 。 


e isAlive(InetAddress) 


故障 检测 器 会 返 


回 一 个 节点 的 存 注 


百度 报告 。 


e interpret(InetAddress) 


由 gossiper 


ZEÉ j 


EH, 


通过 计算 Phi 得 到 的 嫌疑 级 别 ， 


(Phi 的 计算 如 Hayashibara 的 论文 所 壕 ) 


。 report(InetAddress) 


MIA 


ZNcCEE 


村 一 | 


点 接收 到 


IE) 


5.4 INE GEN 


在 谈 到 gossip 协 议 的 地 方 ， 你 
算法 。 


病理 论 的 
EIE 


39r pcs 


PrB REUS ° 


接 下 来 就 是 逆 精 是 如 何 工作 的 。 服 务 器 在 主 
TreeRequest/TreeReponsez: 


节点 的 树 不 匹配 ， 


会 话 ， 


个 心跳 时 ， 


会 调用 这 个 方法 。 


常 第 还 会 发 现 一 个 与 之 对 


Wi (anti-entropy) 是 Cassandra 的 副本 同步 机 制 ， 用 于 


压 紧 操作 期 间 ， 


口 。 它 们 共同 允许 进行 
帮助 gossiper 确 定 一 个 节点 是 否 存 活 


应 的 机 制 一 一 逆 烂 ， 这 也 是 一 种 基于 传染 


E 


TREES F8] A ERAI 


s 


会 与 邻居 节点 进行 一 个 


交换 Merkle 树 。 Merkle 树 是 列 族 数据 的 
它们 就 必须 进行 协商 (或 是 


“修复 ”) 


较 确认 书 


比较 两 棵 树 。 


Yl 
4.75) 


几 制 是 org. 
AntiEntropyService 使 用 了 Singleton 模 式 ， 关 
在 两 棵 树 之 间 发 现 了 人 


| f f DynamoH? f H] T R, Cassandra 


"d 


ART 


的 实现 就 使 ) 


F 何 差异 ， 都 会 对 


用 的 Dynamo 的 模型 


个 哈 希 表示 。 


以 确保 两 者 都 持 有 最 新 的 数据 。 


apache.cassandra.service.AntiEntropyService 
Ff 定义 了 静态 的 Differencer 类 ， 可 以 用 于 


如 果 两 个 
树 比 
类 的 职责 。 


>E AD 
< 了 日 


启动 


> 


BRITE ° 


(参考 Dynamo 论 文 的 


Dynamo4TE3 fij = 


树 ， 但 两 者 的 实现 略 有 不 同 。 在 
程 中 (参见 词汇 
发 送 给 环 上 的 邻居 节点 


在 每 次 更 新 之 后 ， 


逆 炉 算法 阁 


表 中 的 < 压 紧 * 


Ff FH 了 Merkle 树 (参见 词汇 表 中 Merkle 树 的 定义 ) 


， 每 个 列 族 都 有 
，Merkle 是 作为 一 个 快照 被 双 
的 时 候 。 这 样 做 的 优点 是 降低 了 磁盘 IO 。 


在 Cassandra 中 ， 


数据 ， 客 户 端 连接 到 任意 集群 中 的 任意 
的 节点 会 被 读 取 。 在 客户 端 指定 的 一 致 性 级 别 没有 达到 之 前 ， 
检测 到 某 些 响应 节 应 市 点 持 有 的 是 过 时 数据 ， 


会 在 后 台 进 行 


URREAN E, 
的 更 新 ， 这 样 系统 总 
需要 保留 一 个 基 


进行 数据 交换 。 
于 时 间 BRUST 


集群 由 多 个 节点 组 成 ， 


个 节点 即 可 ， 基 


后 侣 进行 


以 确保 至 少 一 个 节点 会 有 最 新 的 值 
了 弱 一 致 性 级 别 (比如 ONE 


如 果 客 户 端 指定 


个 读 修复 过 程 。 这 个 操作 会 


bp 被 引入 。 这 会 对 数据 库 进 行 校 验 和 ， 
"这 需要 一 个 时 间 窗 口 来 保证 其 
P EB RUE e 
， 只 交换 最 近 的 更 新 。 


的 一 个 或 多 个 会 作为 某 块 给 定数 据 的 副本 o 要 读 取 


。Cassandra 也 使 用 了 Merkle 


己 的 Merkle 树 ， 在 主 压 紧 操 作 过 
建 的 ， 生 命 周 期 仅 限 于 它 被 需要 


# 与 其 他 节点 比较 校 验 和 。 


也 节点 可 以 有 机 会 得 到 最 近 


为 了 保证 这 个 操作 非常 快 ， 节 点 内 部 


指定 的 一 致 性 级 别 ， 一 定数 量 


。 这 被 认为 是 一 个 性 能 改进 ， 


这 个 设计 不 仅 在 Cassandra 存 在 ，f 
目 
U^ 


段 的 更 新 数据 任务 会 在 Hel pr 
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行 。 如 琳 使 用 了 两 种 


户 端 之 前 就 进行 了 。 


强 的 一 致 性 


如 果 一 个 读 操 作 发 现 了 同一 时 间 戳 的 不 同 值 ， 
较 ， 以 确保 读 修 复 不 会 进入 死 循环 。 这 和 


那么 读 修复 会 在 
= (QUORUM à 或 ALL ) , 


读 操作 是 阻塞 的 。 如 果 Cassandra 
它 会 向 用 户 返 回 最 新 的 数据 。 在 返回 之 后 ，Cassandra 
会 更 新 过 时 的 数据 。 


慰 / 值 存储 系统 之 中 也 是 如 上 


， 如 Voldemort 项 目 或 是 Riak 项 
端 不 必 一 直 阻 ESMA T 万 点 都 被 读 取 的 时 候 ， 读 修复 
很 有 必要 从 特定 一 组 节点 读 取 ， 


返回 给 客 ) 户 端 之 之 后 的 后 H 进 
那么 读 修复 在 数据 返回 给 客 


Cassandra 会 直接 


' 情 况 应 该 极 少 出 现 。 


5.5 memtable 、SSTable 和 commit log 


进行 写 操作 的 时 


候 ， 数 据 是 直 


而 引入 的 一 种 错误 恢复 机 制 。 写 操 
还 没有 进入 内 存 存储 结构 ! 


数据 写 入 到 commit log 中 之 后 ， 


接 写 入 到 commit logH 


储 的 对 象 数量 达到 阐 值 之 后 ， 
创建 一 个 新 的 memtable， 


ee 被 刷 入 磁盘 ， 
o 


(马上 就 要 介绍 到 的 memtable) 


FP 的 。commit log 是 Cassandra 为 了 达到 持久 性 
有 写 入 到 commit log 才 被 认为 是 成 功 的 ， 这 样 ， 即 使 数据 
， 也 可 以 进行 数据 恢复 。 


会 写 入 到 称 为 memtable 的 内 存 数据 结构 之 : 


放 在 
个 刷 写 的 过 程 是 个 


一 个 称 为 SSTable 的 文件 中 。 然 后 ， 
FEF 阻塞 操作 ， NETT, 可 以 有 


个 决胜 机 制 来 进行 值 的 比 


。 当 memtable 之 中 存 


个 写 操作 时 ， 写 


个 标志 位 ， 因 为 一 台 服 务 器 


是 否 还 包含 没有 被 写 入 的 东 


多 个 memtable， 一 个 是 当前 的 ， Ue SERES AT 和 的 。 这 个 过 程 通 常 不 会 很 长 ， 除 非 节 

点 过 载 了 ， 否则 刷 写 的 过 程 应 该 会 

每 个 commit log 都 有 一 个 内 部 的 标志 ， 用 于 标识 其 XE Ga EUER 。 当 接收 到 

的 内 容 被 写 入 到 commit log 之 中 ， 志 位 为 1。 每 个 列 胡 

上 ， 只 有 一 个 commit log 最 终 会 被 写 入 。 对 所 有 列 族 的 全 部 写 操 人 都 会 进 到 同一 个 commit log 之 
中 来 ， 所 以 这 个 标志 位 用 于 标识 某 个 commit log 对 于 某 个 特 乞 

西 。 一 旦 memtable 被 正确 和 XI 应 的 commit log 的 标志 位 就 会 置 回 为 6 , 这 就 表示 
du HE uu an 志文 件 一 样 ，commit log 也 有 一 个 可 配置 的 处 理 上 ERE, 


Hx SCHEA SU BRIT, 
SSTable 的 概念 是 从 Google 的 Bigtable 里 


"SUE 


SSTable， 它 就 是 不 可 变 的 了 ， 


不 能 被 任何 应 NI 


日 志 志 会 被 翻转 所 有 现存 已 使 用 的 标志 位 都 会 被 写 入 到 磁 强 中 去 。 


发 的 。 一 旦 memtable 被 
用 所 修改 。 尽 管 SSTable 是 被 压 紧 的 ， 但 压 紧 操作 只 


制 写 入 磁盘 ， 成 为 一 个 


是 改变 数据 在 磁 副 上 的 表现 形式 。 实 际 上 ， 压 紧 是 进行 了 归并 排序 的 “归并 ”步骤 ， 将 数据 并 入 
新 的 文件 ， 并 删除 旧 文 件 。 


EI SSTable 是 有 序 字符 串 表 (Sorted String Table) 的 缩写 ， 对 于 Cassandra 的 具体 实现 来 
说 ， 这 有 点 名 不 符 实 ， 因 为 Cassandra 的 数据 不 是 以 字符 串 形式 存储 的 。 


每 个 SSTable 有 一 个 关联 的 Bloom filter， 用 以 提高 性 能 (参见 5.8 节 ) 


所 有 的 写 操作 是 顺序 进行 的 ， 这 正 是 Cassandra 的 写 操作 性 能 出 众 的 原因 。 a E 
一 个 值 不 需要 任何 读 或 者 定位 操作 ， 因 为 所 有 的 写 都 是 以 追加 方式 写 入 的 。 这 会 对 磁盘 速度 性 
能 有 关键 的 限制 。 压 紧 操 作 定 期 地 重新 组 织 数据 ， dette e (ertet eaten 顺序 读 写 。 所 
以 ， 通 过 拆 分 ， E LAE AE 写 操作 是 直接 的 追加 写 ， 之 后 的 压 紧 可 以 组 织 数 
据 ， 从 而 获得 更 好 的 读 性 外 。 如 果 Cassandra 只 是 简 单 地 直接 在 最 终 的 位 置 上 写 入 数据 ， 那 会 让 
客户 端 在 写 操作 时 为 来 回 导 道 而 付出 沉重 代价 。 


对 于 读 操作 ，Cassandra 会 首先 检查 memtable 来 查找 值 ，memtable 是 由 
org.apache.cassandra.db.Memtable 类 实现 的 。 


5.6 ”提示 移交 


考 虚 如 下 场景 。 一 个 写 请 求 到 达 Cassandra， 但 是 负责 这 部 分 数据 的 节点 却 由 于 网 络 分 裂 、 硬 件 
故障 或 其 他 原因 而 不 可 用 。 为 了 保证 整个 环 在 这 种 情况 下 的 可 用 性 ，Cassandra 实 现 了 一 个 称 为 
提示 移交 (hinted handoff) 的 机 制 。 可 以 把 一 个 提示 看 做 是 一 个 小 即时 贴 ， 上 面 记录 着 写 请 求 
的 内 容 。 如 果 写 操作 所 属 的 节点 失败 了 ， Cassandra 接 收 到 该 请 求 的 节点 会 创建 一 个 提示 ， 包 含 

这 样 一 条 备 乐 信息 : “我 有 一 个 给 节点 B 的 写 请 求 信息 。 这 个 请 求 现 在 挂 起 了 ， 等 到 节点 B 回 来 

告知 我 ， JR 我 会 把 写 请 求 送 交 给 它 。” 也 就 是 说 ， 写 操 作 的 提示 信 息 将 会 从 市 点 A 移 
交 给 节点 B。 


提示 移交 允许 Cassandra 对 于 写 操作 永远 可 用 ， 降低 离线 节点 恢复 服务 之 后 的 不 一 致 的 时 间 。 之 
前 我 们 讨论 过 一 致 性 级 别 ， 你 可 能 还 记得 ， 我 们 曾经 提 到 过 0.6 版 本 中 引入 的 一 致 性 级 别 ANY ， 
这 个 一 致 性 级 别 意 味 着 有 个 提示 移交 就 订 以 认为 写 操作 是 成 功 的 。 也 就 是 说 ， 即 使 具有 一 个 
提示 被 记录 下 来 ， 写 操作 也 就 可 以 认为 是 成 功 了 。 


一 些 对 提示 移交 的 顾虑 ， 在 Cassandra 社 区 内 部 就 已 经 提出 过 了 。 起 先 ， 这 似乎 是 一 个 深思 熟 虑 
旦 精巧 的 设计 ， 可 以 保证 数据 库 的 持久 性 ， 并 且 ， 因 为 这 种 方法 已 经 在 很 多 分 布 式 计算 模式 中 
出 现 过 ， 比 如 Java 消 息 服务 (JMS) , 以 乎 不 会 有 什么 间 题 。 在 具有 持久 性 的 “保障 传递 "JMS 队 
列 中 ， 如 果 消 息 无 法 发 送 给 接收 者 ，JMS 会 等 待 一 个 给 定时 间 ， 然 后 重 传 消息 ， 直 到 消息 被 成 
功 接收 。 但 是 在 实际 系统 中 ， 不 论 是 对 于 JMS 的 可 靠 传输 还 是 对 于 Cassandra 的 提示 移交 ， 都 存 
在 一 个 问题 ， 如 果 节 点 离线 持续 一 段 时 间 ， 其 他 节点 ur 之 后 当 其 他 
节点 发 现 掉 线 节点 重新 在 线 的 时 候 ， 请 求 会 如 潮水 般 涌 向 这 个 节点 ， 而 此 时 ， 这 个 节点 本 身 正 
处 在 自己 最 脆弱 的 状态 〈 它 刚刚 从 故障 中 恢复 过 来 ， 正 在 努力 恢复 工作 ) 


作为 对 顾虑 的 回应 ， 现 在 可 以 完全 关闭 提示 移交 ， 或 者 ， 用 一 个 不 那么 极端 的 方法 ， 降 低 提 示 
移交 消息 相对 于 新 的 写 请 求 的 优先 级 。 


ma 


em 


一 


* 1? 在 Cassandra 0.6 和 更 早 的 版 本 中 ，HintedHandoffManager .sendMessage 会 把 一 
整 行 读 入 到 内 存 之 中 ， 然 后 把 整 行 信息 在 一 条 消息 :返回 给 客户 端 。 而 在 0.7 之 中 ，Cassandra 
会 给 被 提示 的 行进 行 分 页 。 对 于 很 宽 的 行 ， 这 会 带 来 很 多 性 能 改善 。 


5.7 EZ 


在 Cassandra 中 ， 压 紧 操作 用 于 合并 SSTable。 在 压 紧 操作 过 程 中 ，SSTable 中 的 数据 会 被 合并 : 
键 值 进行 合并 ， 列 被 组 合 在 一 起 ， 丢 弃 莫 碑 ， 创 建新 的 索引 。 


压 紧 操作 是 通过 合并 大 的 累积 文件 而 释放 空间 的 过 程 。 大 致 类 似 于 关系 型 数据 库 里 的 重建 表 。 
不 过 ， 正 如 Stu Hood 所 指出 的 ， 它 在 Cassandra 中 主要 的 不 同 在 于 ， 这 个 操作 是 完全 透明 的 ， 并 
日 在 整个 服务 器 的 生命 周期 中 持续 进行 。 


在 压 紧 操作 中 ， 合 并 后 的 数据 是 有 序 的 ， 对 这 些 有 序 的 数据 会 创建 一 个 新 的 索引 文件 ， 同 时 上 
述 这 些 刚 刚 合 并 的 、 有 序 的 、 有 索 a PIERII (每 个 SSTable 
包含 三 个 文件 : 数据 、 索 引 和 过 滤 程 序 ) 个 过 程 由 
org.apache.cassandra.db. We 类 来 
现 了 一 个 MBean 接 口 ， 支 持 内 省 机 制 。 
压 紧 的 另 一 个 重要 功能 是 通过 降低 定位 的 次 数 来 提高 性 能 。 对 于 一 个 给 定 的 键 值 ， 要 查找 一 列 
数据 需要 的 查找 次 数 的 上 限 由 SSTable 的 个 数 决定 。 如 果 一 个 键 值 经 党 改动， 那么 可 能 每 个 改动 


都 会 刷 写 入 SSTable。 压 紧 这 些 SSTable 可 以 避免 在 查找 数据 时 被 迫 在 每 个 SSTable 都 查找 一 次 数 
据 。 
Cassandra 中 有 多 种 不 同 的 压 紧 操作 。 。 主 压 紧 的 出 发 原因 有 两 种 : 通过 节点 探测 触发 或 是 自动 进 
行 。 节 点 探测 会 给 被 探测 节点 的 相 邻 节点 发 送 一 个 TreeRequest 消 息 。 当 一 个 节点 收 到 
TreeRequestH; , 会 立刻 进行 J 一 次 只 读 压 紧 ， 来 验证 列 族 。 
只 读 压 紧 包 含 如 下 步 又 E 

1. 获取 列 族 中 的 键 值 分 布 。 

2. 行 被 加 入 到 验证 器 中 之 后 ， 如 果 列 族 需 要 验证 ， 就 会 创建 Merkle 树 ， 并 广播 到 周边 节点 。 

3. Merkle 树 们 被 放 在 一 起 ， 作 为 一 个 Differencers (需要 验证 或 比较 的 树 ) 的 列表 发 送 。 


比较 过 程 由 StageManager 类 进行 ， 这 个 类 负责 管理 执行 任务 时 的 并 发 问题 。 在 压 紧 时 ， 
StageManager fi Hi — 4 3X 8ETEz » EEH 
org.apache.cassandra.concurrent.JMXEnabledThreadPoolExecutor 类 ， 在 


一 个 单线 程 内 执行 压 紧 程 序 ， 并 使 这 个 操作 可 以 作为 一 个 MBean， 支 持 内 省 机 制 。 
你 可 以 通过 降低 压 紧 线程 的 优先 级 来 提高 整体 性 能 。 这 可 以 使 用 如 下 命令 行 参数 来 设置 : 


-Dcassandra.compaction.priority=1 


b ni 


m 
Md 


$, CompactionManager 3: 


> 


当然 ， 这 会 影响 CPU 的 使 用 率 ， 而 非 IO 的 。 


5.8 Bloom filter 


Bloom iter "PRSETER EIFE, A 
一 个 元 素 是 否 是 一 个 外 集合 的 成 员 的 超 快速 、 


其 发 明 者 Burton Bloom ° Bloom filter 是 一 种 用 于 判断 
旦 不 确定 的 算法 。 称 其 为 不 确定 性 方法 是 因为 
Bloom filter 可 能 会 得 到 一 个 “ 假 阳 性 ? 结 是 它 不 会 得 到 “ 假 阴 性 ”的 结果 ， 也 就 是 说 判断 为 
属于 不 一 定 确 实 属 于 ， 但 判断 为 不 属 了 则 一 定 不 SEF ° Bloom filter 将 数据 集 里 的 值 映射 为 一 个 
位 数组 ， Me UEM ARA E I 。 按照 定义 ， 摘 要 字符 捉 会 占用 远 少 于 原始 
数据 的 内 存 空 间 。Bloom filter 位 于 内 存 之 中 ， 这 样 可 以 减少 查找 键 值 时 的 人 磁盘 访问 ， 从 而 改善 


mmy 


性 能 。 磁 强 访 问 通常 SIE 很 多 。 所 以 ，Bloom filtern] 
进行 查询 时 ， TEUER D 先 检 查 Bloom filter。 因 为 不 会 有 假 阴 性 
fil 显示 元 业 不 存在 就 是 揽 的 不 在 在 。 但 

进一步 去 访问 磁盘， 人 确认 是 否 存 在 了 。 

Nodetool 将 会 添加 一 项 新 的 JMX MBeantF tE, fbi 

果 ， 这 个 操作 称 为 getBloomFilterFalsePositives ° 


经 


F 你 查看 Bloom filter 返 回 了 多 少 次 假 阳 


EAR, 


如 果 Bloom filter 显 示 这 个 元 素 在 集合 之 中 ， 那 就 可 以 


以 看 做 是 一 类 符 殊 的 缓存 。 


所 


以， 如 E 


性 结 


—* 1 Apache Hadoop ` Google Bigtable 和 Squid 缓 存 服务 器 也 使 用 了 Bloom filter T ° 


5.9 ZH 


你 可 能 了 解 关 系 型 世界 中 的 “ 软 删 除 ?这 个 


句 ， 而 是 使 用 一 
方法 来 支持 审计 等 


| ford 


动 为 你 执行 
操作 ， 在 相 ) 


概念 


在 Cassandra 之 中 ， 有 个 与 此 类 似 的 概念 ， 称 为 墓碑 。 
的 。 当 你 执行 一 个 出 


应 的 值 上 放 一 个 墓碑 。 


会 被 清理 掉 。 


有 一 个 相关 的 设置 ， 称 为 Garbage Collection Grace Seconds. (垃圾 


器 对 一 个 墓碑 进 


Cassandra 会 


收 它 。 这 个 时 延 
个 时 间 ， 那 么 它 


在 Cassandra 0.7 中 ， 这 个 设置 是 对 每 个 列 族 都 可 本 


行 垃圾 回收 之 前 
ERTA 


的 设计 目 


也 会 


的 等 
的 年 龄 ， 


HE] 
JAE 


竺 的 时 间 。 


。 软 删除 是 指 ， 
AA, 把 某 列 的 值 变 为 * 已 删除 ”之 类 的 


hy FB 


H 
Tr 


大 | 多 


站 足够 长 的 时 间 ， 
被 认为 是 发 生 故 障 了 ， 


5310 ”分 阶段 事件 驱动 架构 


Cassandra 实 现 了 一 个 分 阶段 事件 驱动 架构 (SEDA) 
架构 ， 由 Matt Welsh ` David pU Brewer 〈 就 是 我 们 之 前 提 到 的 CAP 理 ; 
、 可 伸缩 的 互联 网 服务 架构 ”的 论文 中 提 


a 


通 i 
在 2001 年 的 一 篇 


题 为 “SEDA: 


在 一 
在 一 个 线程 里 ， 


个 典型 的 应 用 中 


H 


以 ， 一 个 工作 可 
一 个 线程 。 
段 ， 与 阶段 关联 
定 执行 的 任务 。 
移 。 因 为 每 个 


L 


的 线程 池 (实际 
阶段 十 


从 一 个 线程 开始 
但 并 不 是 当前 


种 良 态 


一 个 单独 的 任务 单 
有 始 有 终 。 但 在 Cassandra 


| 


前 线程 来 决 gud 


兽 经 是 整 


。SEDA 是 一 种 为 高 


上 是 java .util.concur 
王 务 的 最 基本 的 单位 ， 


一 个 


介 段 由 不 同 的 线程 池 处 理 ， Cassandra 


这 就 是 所 有 删除 
除 操 作 时 ， 数 据 并 不 会 被 立刻 删除 。 


墓碑 是 一 个 删除 标记 ， 当 执行 压 紧 时 ， 


回收 时 
这 个 时 间 默 认 是 864000 秒 ， 
旦 某 个 募 碑 的 寿命 比 GCGraceSeconds 3 
以 便于 恢复 数据 如 果 一 个 
应 该 被 替换 掉 。 


THAJ ( 


时 


操作 的 做 法 ， 
相反 ， 


Ur ere cde 


， 程 序 员 会 使 用 


这 种 


法 ， 因 而 也 是 自 
会 被 视 为 一 个 更 新 


个 keyspace 的 一 


台 论 文 可 以 在 http://www.eecs.harvard.edu/~mdw/proj/seda 得 到 ° 


位 经 常会 在 一 个 线程 内 来 完成 。 比 如 一 个 
FPF 却 有 所 不 同 :， 它 的 3 
之 后 移交 给 另 一 个 线程 ， 
作 移 交 给 下 一 个 线程 。 


3E) 


并 发 互联 


比 幕 碑 更 老 的 内 容 都 


。 这 个 时 间 是 服务 
也 就 是 10 天 。 

更 长 了 ， 就 会 回 
节点 宕 机 超过 这 


个 设置 项 ) 


网 服务 设计 的 
仑 的 提出 者 ) 


Lu 
Eg 


写 操作 ， 会 


i 发 模型 是 基于 SEDA 的 ， 所 
这 个 线程 还 可 能 会 ; 
一 个 操作 会 引 
rent.ExecutorService ) 来 决 


年 它 再 交 给 
分 为 不 同 阶 


BA 
AT 


操作 内 部 可 能 


可 以 因此 获得 


不 同 阶段 之 | 


EMER 


司 的 状态 迁 
区 收益 。SEDA 设 计 


意味 答 Cassandra 能 够 更 好 地 管理 其 内 部 的 资源 ， 


能 是 受 限于 CPU 抑或 是 需要 网 络 


行 。 


操作 等 ， 


不 同 的 线程 池 可 


因为 不 同 的 操 E] 


以 根据 可 


能 都 人 


需要 磁盘 IO、 或 者 可 


资源 来 管理 任务 的 执 


一 个 阶段 包含 一 个 输入 事件 队列 、 一 个 事件 处 理 程序 和 一 个 相关 联 的 线程 池 。 这 些 阶 段 都 由 一 
PREIAR, FERE fA BESETE FE > Cassandra f 
java.util.concurrent.ExecutorService 线程 池 来 实现 这 个 并 发 模型 。 想 要 了 解 具体 
的 实现 ， 可 以 看 org.apache.cassandra.concurrent. en ds 个 类 。 


Cassandra 中 ， 作 为 阶段 的 操作 有 : 


T 


e Mutation 
e Gossip 
。 响应 

. ER 

。 附 在 均衡 


一 些 新 增加 的 操作 也 实现 为 阶段 。 一 些 阶 段 针 对 于 memtable 的 一 些 单元 操作 (在 
ColumnFamilyStore 类 中 ) 。StorageService 里 的 一 致 性 管理 器 也 是 一 个 阶段 。 


为 mutation 的 概念 实现 为 一 个 阶 


>F 


阶段 实现 了 IVerbHandler 接口 ， 支 持 给 定 动 词 的 功能 。 
段 ， 所 以 它 既 可 以 用 作 添 加 操作 ， 也 可 以 用 作 删 除 操作 


SEDA 是 一 个 很 强大 的 架构 。 因 为 它 是 事件 驱动 的 ， 正 如 其 名 ， 它 可 以 很 好 的 应 付 并 发 ， 而 且 没 
EPA Cc 


5.11. 管理 器 与 服务 


Cassandra 的 基本 内 部 控制 机 制 由 一 组 类 组 成 。 这 里 会 简单 介绍 一 下 这 些 类 ， 来 帮助 读者 了 解 这 
其 中 比较 重要 的 一 些 。 第 一 个 要 谈 到 的 大 概 束 是 
org.apache.cassandra.thrift.CassandraServer 类 。 这 个 类 实现 了 对 Thrift 调 用 接 
的 呼叫 ， 代 理 了 大 部 分 对 org.apache.cassandra,service ， ee 的 查询 操 
作 。 


> 


5.11.1 Cassandra 和 守护 进程 


org.apache.cassandra.service.CassandraDaemon 接口 对 应 着 一 个 节点 上 的 
Cassandra 服 务 的 整个 生命 周期 。 它 包含 了 你 能 想到 的 各 种 典型 的 生命 周期 操作 : start ^ 


stop » activate ^ deactivate 以 及 destroy 。 


5112 存储 服务 


Cassandra 数 据 库 服务 对 应 于 org. apache.cassandra.service.StorageService 类 。 存 
储 服务 持 有 节点 的 令 牌 ， 这 表征 了 节点 应 该 负责 的 数据 范围 。 


当 服 务 器 启动 时 ， 会 
务 器 的 状态 (FEA K 


个 MBean ° 


5.11.3 ”消息 服务 


org.apache.cass 


会 调用 这 个 类 的 initServer 方法 ， 在 这 里 注册 SEDA 操 作 管 理 器 、 决 定 服 
ARAM 本 节点 的 分 区 器 是 什么 ) ， 并 在 JMX 服 务 器 把 自己 注册 为 一 


andra.net.MessagingService 的 用 途 是 创建 用 于 消息 交换 的 套 接 口 


监听 器 的 ， 市 点 的 进 
个 线程 。 每 个 到 达 的 
org. apache. Ca 


出 消息 都 会 经 过 这 个 服务 。MessagingService.1listen 方法 会 创建 一 
连接 接 下 来 都 会 被 转交 到 ExecutorService 线程 池 ， 使 用 
andra.net. zo un de GRE B Thread 的 类 ) 来 解 


码 消 息 。 消息 会 首 


进行 验证 ， 之 后 判断 是 否 是 一 条 流 消息 息 流 是 Cassandra 用 于 在 节点 间 


fe SESS Table X FEE) 大 化 方法 ， 除 此 之 外 的 所 有 其 他 通信 部 是 训 列 化 的 消息 
消息 会 交 给 IncomingStreamReader 来 处 理 ， 否则 就 由 MessagingService 的 反 序列 化 执 


E 


。 如 采 是 流 消 息 


行 器 来 处 理 ， 它 是 以 


个 执行 了 Runnable 的 任务 的 形式 传递 的 。 因 为 这 个 服务 密集 使 用 了 “ 阶 


段 *， 而 且 使 用 MBean 封 装 了 它 维护 的 线程 池 ， 所 以 ， 可 以 通过 JMX 接 口 来 查看 很 多 关于 这 个 服 


务 如 何 运行 的 信息 


(如 读 操 作 是 否 得 到 支持 等 ) 


5.11.4 ”提示 移交 管理 器 


正如 它 的 名 字 ，org. 


示 移 交 的 类 。 它 也 维 
听 。 


5.12 小结 


本 章 中 ， 我 们 学 习 了 
分 阶段 事件 驱动 染 


apache.cassandra.db.HintedHandoffManager 是 内 部 用 于 管理 提 
护 了 一 个 线程 池 ， 同 样 可 以 通过 JMX 访 问 HINTED-HANDOFF-POOL 来 监 


Cassandra 结 构 的 了 主要 文 柱 ， 包括 gossip 3E S dE DERE, ， 以 及 如 何 
& 构 来 提升 性 能 。 我 们 还 看 了 Cassandra 内 部 是 如 何 执行 不 同 的 操作 的 ， 比 妈 


mu 


使 


am 
I 


了 一 些 关 键 点 。 


墓碑 和 读 修 复 。 最 后 ， 


我 们 介绍 了 一 些 主要 的 类 和 接口 ， 如 果 你 想 深 入 研究 代码 ， 本 章 也 指出 


第 6 章 fU Cassandra 


在 本 章 里 ， 我 们 来 看 


看 如 何 配置 Cassandra。 我 们 将 逐一 地 创建 keyspace、 设 置 副 本 数 ， 并 使 用 


合适 的 副本 放置 策略 。 


Cassandra 无 须 配 置 即 可 使 用 ， 你 可 以 直接 下 载 、 解 压 ， 然 后 运行 可 执行 文件 ， 以 默认 配置 局 动 


服务 器 。 
本 划 中 ， 我 们 将 聚焦 


副本 数 、 分 区 和 Snitch。 性 能 调 大 是 另 一 个 单独 的 话题 ， 将 在 第 11 章 单独 介绍 。 


= 1^ Cassandra 的 


6.1 keyspace 


开发 进度 很 快 ， 会 不 断 地 发 生变 化 。 这 里 ， 


Cassandra 是 如 何 影 响 集 群 中 的 节点 的 行 为 的 ， 包 括 性 能 和 各 种 元 操作 ， 如 


会 尽力 跟 上 版 本 的 变化 。 


eh 


在 老 版 本 的 Cassandra 中 ，keyspace 是 直接 定义 在 XML 配置 文件 中 的 ， 但 在 0.7 版 本 里 ， 你 可 以 使 
API 来 动态 创建 keyspace 和 列 族 。 

在 Cassandra 0.6 或 更 早 的 版 本 里 ， 集 群 和 列 族 的 配置 位 于 一 个 称 为 storage-conf.xml 的 文件 中 。 之 
后 有 一 个 从 XML 到 YAML 的 过 渡 转 换 ， 所 以 可 以 看 到 storage-conf.xml 和 cassandra.yaml 两 个 文件 

的 相关 资料 。0.7 引 入 了 动态 加 载 ， 所 有 对 keyspace 和 列 族 定义 的 创建 和 变更 都 可 以 通过 Thrift 

API 和 命令 行 接口 实现 ， 不 必 使 用 配置 文件 。 

从 Cassandra 0.7 开 始 ， 可 以 使 用 API 操 作 来 修改 schema 了 ， 和 SQL 的 数据 定义 语言 (DDL) 的 语 
法 很 类 似 ， 比 如 CREATE TABLE 或 ALTER TABLE ° 

一 旦 schema 加 载 到 System keyspace (Cassandra Hi T ff 储 : 集群 元 数据 的 内 部 keyspace) 之 后 ， 对 
schema 所 进行 的 任何 变更 都 必须 使 用 Thrift 接 口 进行 。 这 些 操 作 都 以 “system”* 为 前 级 。 提 醒 你 ， 


修改 system keyspace 属 于 影响 逢 


system add keyspace 


创建 一 个 keyspace。 


system r ename keyspace 


民 大 的 schema 修 改 操作 ° 


对 一 个 keyspace 进 行 快照 ， 然 后 修改 它 的 名 字 。 这 个 方法 在 执行 完成 之 前 会 一 直 阻 塞 人 
e system_drop_keyspace 对 一 个 keyspace 
进行 快照 之 后 ， 完 全 删除 这 个 keyspace。 
e system add column family 
创建 一 个 列 族 。 
e System drop column family 
对 一 个 列 族 进 行 快照 ， 然 后 删除 这 个 列 族 。 
e system rename column family 
对 一 个 列 族 进行 快照 ， 然 后 改名 。 注 意 ， 这 个 操作 在 完成 之 前 也 会 一 直 阻 塞 住 。 
例如 ， 使 用 0.7 对 命令 行 创建 一 个 新 的 keyspace。 可 以 启动 如 下 命令 行 工 具 : 


[defaultQunknown] connect 127.0.0.1/9160 


Connected to: 


"Test Cluster" on 127.0.0.1/9160 


[defaultQunknown] create keyspace Testi with replication factor-o 
610d06ed-a8d8-11df-93db-e700f669bcfc 
[defaultQunknown] describe keyspace Testi 


Keyspace: Testi 


defaultQunknown 的 写法 和 MySQL 入 
后 可 以 使 


然 


keyspace 名 作为 提示 符 。 


H FH 


类 似 ， 使 用 : 
Juse keyspace 命 令 


P A 


鉴 权 的 用 TE (如 需要 ) 和 当 
令 来 切换 不 同 的 keyspace: 


前 使 用 的 


use &ltkeyspace> [&ltusername> 'password'] 


现在 ， 我 们 切换 到 在 命 


令 行 上 刚刚 


| 建 的 keyspace， 


中 加 入 列 族 : 


可 以 在 其 


[defaultQTesti] create column family MyCF 
4105a82f -ad51-11df-93db-e700f669bcfc 


n 
n 


在 创建 keyspace 或 列 族 的 时 候 ， 可 以 使 
进行 更 多 设置 : 


指定 其 他 附加 的 设置 ， 并 使 用 and 标记 了 


7 


SY 
s 


用 with fii 


[defaultQMyKeyspace] create keyspace NewKs with replication factor-1i 


其 他 的 可 以 使 用 的 命令 行 命令 还 包括 : 


drop keyspace &ltkeyspace> 

drop column family &ltcf> 

rename keyspace &ltkeyspace» &ltkeyspace new name» 
rename column family &ltcf» &ltnew name» 


5s 


这 些 工 作 还 可 以 通过 API 调 用 来 进行 ， 如 例 6-1 所 示 。 
例 6-1: 使 用 API 来 动态 创建 keyspace 和 列 族 


package com.cassandraguide.config; 


import java.util.ArrayList; 
import java.util.List; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.CfDef; 

import org.apache.cassandra.thrift.KsDef; 

import org.apache.thrift.protocol.TBinaryProtocol; 
import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 
import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 


public class ConfigAPI { 


private static final String HOST - "localhost"; 
private static final int PORT = 91690; 


/** 
* 创建 新 的 keyspace 和 列 族 。 
ard 
public static void main(String... args) throws Exception { 
String keyspaceName - "DynamicKeyspace"; 


System.out.println("Creating new keyspace: "+ keyspaceName); 


// 创 建 Keyspace 

KsDef k = new KsDef(); 

k.setName(keyspaceName); 

k.setReplication factor(1); 

k.setStrategy class("org.apache.cassandra.locator.RackUnawareSt- 
rategy"); 


List cfDefs - new ArrayList(); 
k.setCf defs(cfDefs); 


// 连 接 服务 器 

TTransport tr = new TSocket(HOST, PORT); 
TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto = new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tr.open(); 


// 添 加 新 的 keyspace 
client.system add keyspace(k); 
System.out.println("Added keyspace: "+ keyspaceName); 


要 创建 一 个 keyspace， 所 需要 做 的 就 是 给 定名 称 、 指 定 副本 放置 策略 (会 在 6.3 节 中 介绍 ) 以 及 
设 定 副本 因子 ， 然 后 可 以 按照 你 的 设计 ， 创 建 任意 多 个 列 族 ， 仅 此 而 已 。 现 在 ， 已 经 是 一 切 就 
绪 ， 可 以 向 新 列 族 MyCF 里 插入 数据 了 。 


一 此 如 果 你 不 指定 ，Cassandra 会 提供 一 个 默认 的 副本 策略 。 这 个 例子 
见 ， 所 以 展示 了 语法 。 


6.1.1 创建 列 族 


可 以 使 用 命令 行 或 是 API 来 创建 一 个 列 族 。 这 些 是 包 


是 


， 我 是 为 了 明确 起 


XM 


建 列 族 时 可 以 指定 的 选项 。 
e column type 


标准 列 族 (Standard) 或 是 超级 列 族 (Super ) 。 


* clock type 


唯一 的 合法 值 就 是 Timestamp 。 


。 Comparator 


合法 选项 包括 AsciiType、BytesType、LexicalUUIDType、LongType、 
TimeUUIDType 和 UTF8Type 。 


e subcomparator 


nib cm 


"1comlumn type 是 Super 时 ， 子 列 使 用 的 比较 器 。 合 法 值 的 规定 和 比较 器 是 一 样 的 。 


e reconciler 


当 列 的 版 本 发 生 冲突 的 上 时候， 进行 协调 的 类 的 名 字 。 目 前 唯一 合法 的 值 是 Timestamp 。 


字符 串 形式 的 人 类 可 读 的 任意 注释 内 容 。 


。 rows_cached 
要 缓存 的 行 数量 。 
* preload row cache 


把 这 个 选项 设置 为 true 可 以 自动 加 载 行 缓存 。 


e key cache size 

放 入 缓存 中 的 键 值 数 量 。 
。 read repair chance 
合法 值 区 间 从 0.0 到 1.0。 
这 里 有 一 个 例子 : 


[default@Keyspace1] create column family MyRadCF 
with column type-'Standard' and comparator-'UTF8Type' and rows 


cached=40000 3ae948aa-ae14-11df-a254-e700f669bcfc 


6.1.2 ”从 0.6 迁 移 到 0.7 
放 在 conf Hox 


里 的 cassandra.yaml 文 件 是 


用 来 奉 换 之 前 


本 的 配置 文件 。 不 过 ， 人 
可 以 如 之 前 的 例子 所 示 的 那样 ， 
和 列 族 。 


2 d 


PR 


年 它 转化 成 YAML 格式 ， 


的 
的 cassandra. yaml 文 件 ， 让 
里 ， 种 子 市 点 并 没有 
运行 PUTAS s 


HS 
o 


后 续 的 操作 ， 将 


使 


仅仅 是 用 
过 Thrift API, 


装 入 system keyspace = 个 一 次 愧 


个 已 有 的 0.6 版 本 的 storage-conf.xml 文 件 ， 


十 么 特殊 的 。 你 可 以 对 
MET ARK S kí schema E ý, 并 通过 gossip 来 传播 schema 的 变 化 。 将 定 
操作 ， 不 需要 在 运行 这 个 命令 之 后 再 度 
一 旦 版 本 迁移 完成 ， 


更 用 API 或 是 命令 行 接口 来 


默认 设置 会 很 简单 ， 


使 


来 帮助 用 户 


的 storage-conf.xml 的 ， 后 
把 配置 
用 带 有 system_ 前 缀 的 调 


FRI 


通过 这 个 操作 可 以 强人 


节点 运行 这 


BI% 


首先 要 做 的 就 是 使 用 bin/config-converter 工 
它 会 为 你 生成 一 个 cassandra. yaml 文 件 。 在 
org. un cassandra.service.StorageServiceMBean 之 中 ， 
操作 ， 称 为 1oadSchemaFromYAML , 
schema 的 改动 生效 。 集群 中 


RH 


EA 
点 会 


进行 


副本 


非常 广泛 ， 


Brewer Snitch。 这 些 都 是 keyspace 内 


季 中 的 节点 越 多 ， 副 本 放置 策略 也 就 越 
是 指 一 个 运行 着 Cassandra 软 件 的 服务 器 ， 隶 属于 包含 


每 个 Cassandra 节 点 都 是 某 些 东 


西 的 


个 副本 。 对 于 一 个 给 定 


还 是 让 我 们 3 
的 设置 


区 间 的 副本 。 如 果 副 本 因 了 设置 为 1， 


者 是 0.6 和 之 前 版 


文件 从 XML 升级 到 YAML 的 。 也 


来 配置 keyspace 


有 一 个 通过 JMX 输 出 


出 Cassandra 重 新 加 载 种 子 节点 中 
在 启动 时 
个 方法 ( 


获得 schema 的 更 新 。 
虽然 并 不 推荐 对 多 个 节 


修改 这 个 YAML 文 


这 个 操作 就 被 弃 用 


要 。 在 Cassandra 中 ， 节 点 (node) 这 个 名 词 使 用 得 
一 个 或 多 个 Cassandra 服 务 器 的 


KE 研究 一 下 如 何 设置 
不 同 的 keyspace 可 以 


副本 放置 策略 > 
不 相同 。 


ZECassandra 15 54 HT 
个 证 点 上 。 如 果 这 个 市 


， 集 群 中 的 两 个 


， 那 么 存储 在 这 个 i 态 上 的 数据 
将 得 到 


2i 


就 不 可 用 


或 是 说 一 组 3 


一 个 Cassandra 集 群 ， 


EYL, 


节点 都 有 个 单一 、 唯 


BE 
从 它 的 令 牌 直到 前 


一 的 令 脾 (toke 
A 78 58] A ft 


n) 


f 而 如 果 把 副本 
是 ， 它 们 互 为 副本 。 
EU EERBLE 即使 N 是 1 o 


通常 被 认为 是 一 个 环 ， 


LZ c 


于 子 设置 成 >， 那么 在 每 次 


总 之 ， 如 果 副 本 因子 是 N， 那 么 每 


。 每 个 节点 会 声 


明 对 一 个 区 间 


原因 就 在 这 里 揭晓 。 


上 的 


的 值 


的 所 有 权 ， 这 个 范围 


间 的 定义 位 于 org,.apache,cassandra， dits Range 


o 


Cassandra 中 创建 一 个 副本 的 时 候 ， 
有 其 他 副本 的 分 布 则 基于 


6.3 ”副本 放置 策略 


简单 地 说 ， 对 于 配置 文件 来 说 ， 
这 个 类 需要 派生 上 自 
ReplicationStrategy 类 。 配 


类 中 。 令 牌 的 形式 依赖 于 你 所 使 用 
BE 


第 一 


副本 策略 的 


E 


区 器 (partitioner， 更 多 关于 分 


个 副本 总 


文件 中 的 这 


配置 ， 


文 个 设置 


位 于 那个 拥 


有 所 在 键 


现在 我 们 就 


要 规定 一 个 副本 放置 策略 ， 


org.apache.cassandra.locator 


看 看 。 


区 器 的 信息 可 以 参考 6.5 


直 区 间 令 牌 的 节点 上 。 所 


p 1! 要 提供 一 个 Java 类 的 名 字 即 可 
,Abstract - 


TB B, E 


DRE 


TIEFE 


器 的 工作 。 


ay, 
Ent: 要 


确定 


Hil 


个 以 通 月 
的 了 


架 之 内 来 提 


副本 放置 的 位 置 ，Cassandra 使 用 
RREH 
。 每 个 算法 实现 都 封装 在 一 个 B 


LH 


H EZH 


JURE 


Wi e 


副本 放置 策略 接 
些 方法 实现 的 话 ， 也 可 以 只 覆盖 你 
经 提供 了 三 个 现成 的 实现 ， 可 以 直接 使 用 ， 机 架 感 知 策 略 、 机 架 无 关 策 略 和 


grt 
的 策略 最 常见 的 


B 


的 不 同 
一 个 策略 本 


和 各 种 不 同 的 排序 


LIEBE T 11/7737 


算法 实现 ， 


选择 取决 于 你 的 需求 。 


] 
允许 使 用 一 个 
a 


算法 的 不 


a. 


实现 ， 


2E 
fang 
ror 
T 


pss 


行 时 替换 的 。 


客 


[快速 排序 、 归 


Zi 


需要 的 方法 。 


需要 实现 ， 如 果 
当然 ， 


并 排序 
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的 策略 是 org .apache.cassandra.locator .RackUnaware- 
由 象 父 类 的 calculateNaturalEndpoints 方法 。 
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实现 在 


图 6-1: 简单 策略 在 一 个 数据 中 心 内 部 放置 副本 ， 与 拓扑 无 关 


这 里 ， 实 际 上 是 环 上 的 后 N 个 节点 被 选择 存放 副本 ， 这 个 策略 并 不 了 解数 据 中 心 相关 信息 。 图 
中 画 出 了 第 二 个 数据 中 心 ， 可 以 看 到 ， 这 种 策略 完全 没有 意识 到 多 个 数据 中 心 的 存在 。 


6.3.2 ”有 旧 网 络 拓扑 策略 


Cassandra 提 供 的 第 二 个 可 用 副本 放置 策略 是 
org.apache.cassandra.locator.RackAwareStrategy ， 现 在 称 为 上 日 网 络 拓扑 策略 ， 
主要 用 于 将 副本 分 布 到 同一 个 数据 中 心 的 不 同 机 架 之 上 。 和 RackUnawareStrategy 一 样 ， 这 
个 策略 也 只 覆盖 了 抽象 父 类 的 calculateNaturalEndpoints 方法 。 这 个 类 如 其 原始 名 称 所 
说 的 那样 ， 可 以 感知 到 数据 中 心中 的 机 架 位 置 。 


假设 你 有 TEC E 心 ， 里 面 有 一 组 Cassandra 服 务 器 。 使 用 这 个 策略 会 将 一 些 副本 
放 在 DC1 的 不 同 机 架 上 ， 还 会 确保 有 一 个 副本 放 在 DC2。 机 架 感 知 策略 的 目标 应 用 场景 是 ， 你 
的 Cassandra 集 群 节 BERTI Bier 必 之 中 ， 并 且 使 用 副本 因子 3 ° KI 6-2 所 示 。 


这 个 策略 通过 牺 牧 了 一 定 的 时 延 特性 来 换取 高 可 用 性 ， 因 为 当 与 其 他 数据 中 心 的 节点 进行 通信 
的 时 候 会 带 来 更 高 的 时 延 。 如 果 Cassandra 就 在 一 个 数据 中 心里 ， 没 有 必要 使 用 机 架 感知 策略 。 
不 过 ，Cassandra 为 运行 在 不 同 数据 中 心 进行 了 优化 ， 通 过 多 数据 中 心 获得 更 高 的 可 用 性 也 许 对 
你 是 非常 重要 的 。 所 以 如 果 Cassandra 分 布 在 多 个 数据 中 心 ， 可 以 考虑 使 用 这 个 策略 。 


LE 


=a z 网 络 拓扑 策略 把 第 二 个 副本 放 在 另 一 个 数据 中 心 ， 然 后 把 其 他 副本 放 到 本 数据 中 心 的 


如 果 你 使 用 机 架 感知 策略 ， 必 须 使 用 机 架 感 知 Snitch。Snitch 在 6.6 节 介绍 


6.3.3 ”网 络 拓扑 策略 


相对 于 机 架 感 知 策略 (RackAwareStrategy ) ，Cassandra 0.7 中 包含 的 网 络 拓扑 策略 允许 你 
更 加 深度 地 定制 如 何 将 同 数据 中 心 。 要 使 用 这 个 策略 ， 需 要 提供 一 个 参数 来 指定 
每 个 数据 中 心 的 副本 放置 策略 。 这 个 文件 会 被 

org.apache.cassandra. ders DataCenterShardStrategy 类 读 取 并 运行 ， 这 样 ， 
拓扑 的 设置 就 更 加 灵活 了 。 数 据 中 心 分 乒 策 略 如 图 6-3 所 示 。 


这 个 策略 曾经 使 用 过 一 个 称 为 datacenter.properties 的 文件 。 但 在 0.7 当 中 ， 这 些 原 数据 会 直接 附加 
到 keyspace， 并 做 为 一 个 配置 选项 映射 。 


图 6-3: 按照 用 户 指定 的 方式 ， 网 络 拓扑 策略 把 一 些 数据 放 在 另 一 个 数据 中 心 ， 把 剩 下 的 副本 放 
在 第 一 个 数据 中 心 的 其 他 机 架 上 


6.4 副本 因子 


副本 因子 (replication factor) 决定 了 数据 将 在 Cassandra 集 群 中 存放 多 少 个 副本 ， 由 
replication_factor 配置 项 决定 。 


一 个 直观 的 感觉 好 象 是 ， 集 群 中 节点 越 多 ， 副 本 因子 就 应 该 设置 得 更 高 。 但 是 ， 你 不 能 真 的 这 
么 做 ， 相 反 ， 要 根据 所 需要 的 服务 级 别 需求 来 设置 副本 因子 。 


当 副 本 ET 1RR, Xii SEREC HUERUE — 1 DLE o WRAT AR, PEOR ULL 
不 可 用 了 。 这 也 意味 着 Cassansra 需 要 做 更 多 的 节点 协调 工作 ， 如 果 某 个 给 定 键 值 的 所 有 数据 都 
BUE TS AB. 那么 到 达 节 点 A 的 每 个 对 于 这 个 键 值 的 客户 端 请 求 都 需要 转发 过 去 。 


你 也 不 能 设置 比 节点 数 更 多 的 副本 因子 值 ， 因 为 这 没有 任何 意义 。 实 际 上 ， 不 应 该 通过 这 个 值 
2 sum 致 性 。 只 要 读 副 本 数 与 写 副 本 数 之 和 大 于 副本 因子 ，Cassandra 就 能 够 达到 


所 以 ， 如 果 你 有 一 个 10 个 节点 的 集群 ， 最 大 能 设置 的 副本 因子 就 是 10， 但 不 应 该 这 么 做 ， 这 样 
就 让 Cassandra 无 从 施展 己 的 长 处 ， 也 影响 了 系统 的 可 用 性 ， 因 为 即使 有 1 个 节点 掉 线 ， 也 无 法 


达到 高 一 致 性 。 相 反 ， 正 确 的 用 法 是 将 副本 因子 设 为 一 个 合理 的 值 ， 然 后 调节 一 致 性 级 别 。 
里 的 < 合理 的 数值 ”可 能 会 很 小 。 一 致 性 级 别 不 允许 将 数据 写 到 超过 副本 因子 的 节点 个 数 。 对 于 
一 致 性 级 别 ，ONE 看 起 来 是 最 低 的 ， 但 ANY 类 似 于 ONE ， 却 提供 更 低 的 一 致 性 ， 因 为 你 可 能 会 
在 写 入 数据 之 后 很 久 + 能 看 到 写 入 的 数据 。 如 果 集 群 中 有 任何 节点 还 在 线 ，ANY 操作 都 会 成 
功 。 


-一 上 怪 如 果 你 是 Cassandra 的 新手 ， 副 本 因子 和 一 致 性 级 别 可 能 让 你 觉得 有 些 无 所 适 从 。 副 本 
因子 是 keyspace 的 属性 ， 在 服务 器 的 配置 文件 中 指定 。 而 一 致 性 级 别 是 每 次 查询 时 有 客户 端 指 
定 的 。 副 本 因子 表示 ， 每 次 写 入 操作 最 终 会 把 数据 存 入 到 多 少 个 市 点 ， 而 一 致 性 级 别 表示 ， 
至 少 多 少 个 节点 响应 了 ， 读 写 操作 可 以 被 认为 是 成 功 了 。 有 点 让 人 糊涂 的 是 ， 一 致 性 级 别 是 
基于 副本 因子 而 定 的 ， 而 非 系统 中 的 节点 数 。 


提升 副本 因子 


从 设计 上 说 ， 副 本 因子 不 是 一 个 在 运行 中 调整 的 参数 ， 而 应 该 在 集群 局 动 之 前 设 定 。 但 是 ， 随 
着 应 用 的 增长 ， 你 可 能 需要 增加 市 点 ， 这 时 可 能 要 提高 副本 因子 。 这 里 有 些 简单 的 原则 可 以 在 
是 高 副本 因子 时 参考 。 首 先 要 记 住 的 是 ， 在 调 高 副本 因子 之 后 ， 必 须 重启 市 点 。 修 复 操 作 会 在 
节点 重启 之 后 进行 ，Cassandra 将 会 重新 分 布 数据 ， 以 达到 副本 因子 指定 的 副本 数量 。 在 修复 的 
过 程 中 ， 某 些 客户 端 可 能 会 连接 到 那些 还 没有 得 到 数据 的 副本 ， 这 样 就 会 收 到 数据 不 存在 的 提 


把 副本 因子 从 1 提高 到 2 的 更 快 的 方法 是 使 用 node tool。 首 先 在 原始 节点 执行 一 个 drain 操 作 ， 确 
呆 所 有 数据 都 刷 入 SSTable。 之 后 ， 停 止 这 个 节点 ， 这 样 它 就 不 会 接受 新 的 写 操作 了 “。 然 后 复制 
keyspace 下 的 数据 文件 (配置 文件 中 的 DataFile Directory 配置 项 的 值 ) ， 确 保 不 要 复制 
内 部 Cassandra keyspace 的 值 。 将 这 些 文件 精 贴 到 新 季 点 上 。 将 两 个 节 点 上 的 副本 基 子 配 置 都 提 
高 到 2。 确 保 两 个 节点 上 的 autobootstrap 都 设置 为 false 了 。 然 后 重启 两 个 节点 ， 运 行 hode 
tool repair。 这 些 操作 将 让 客户 端 减少 忍受 未 初始 化 的 读 操作 时 间 。 


为 了 示意 这 个 过 程 ， 我 使 用 了 三 个 证 点 ，IP 地 址 后 缀 分 别 是 1.5、1.7 和 1.8， 副 本 因子 为 1° 我 将 
连接 到 市 点 1.5， 来 写 入 一 个 之 前 不 存在 的 列 : 


qms 


cassandra» connect 192.168.1.5/9160 

Connected to: "TDG Cluster" on 192.168.1.5/9160 
cassandra» set Keyspacei.Standard2['mykey']['rf']z'1' 
Value inserted. 


现在 ， 我 关 掉 节点 1.5， 连 接 到 另 一 个 节点 1.7， 来 尝试 获取 我 设置 的 值 : 


cassandra» connect 192.168.1.7/9160 

Connected to: "TDG Cluster" on 192.168.1.7/9160 
cassandra» get Keyspacei.Standard2['mykey']['rf'] 
Exception null 


Hm 


因为 我 的 副本 因子 是 1， 而 这 个 值 仅 写 入 到 1.5 这 个 节点 了 ， 所 以 当 我 失去 这 个 市 ， SITIS, 
群 中 的 其 他 市 点 没有 这 份 数据 。 在 1.5 广 点 重新 在 线 之 前 ， 客 户 端 将 无 法 读 到 rf 列 的 值 


现在 我 们 来 看 看 提高 副本 因子 的 效果 。 把 1.5 和 1.7 节 点 的 副本 因子 从 1 提高 到 2， 然 后 重启 。 让 我 
们 在 1.7 节 点 上 给 rf 列 插入 新 值 : 


cassandra> connect 192.168.1.7/9160 

Connected to: "TDG Cluster" on 192.168.1.7/9160 
cassandra» get Keyspacei.Standard2['mykey']['rf'] 
Exception null 

cassandra» set Keyspacei.Standard2['mykey']['rf']-z'2' 
Value inserted. 


之 前 的 例子 的 空 响应 显示 ， 之 前 节点 1.7 原 本 没 这 份 数据 。 现 在 关闭 1.7， 连 接 到 1.5， 我 们 看 至 
这 个 值 是 因为 写 到 1.7 的 值 被 复制 到 了 1.5， 这 是 副本 因子 的 影响 : 

cassandra> connect 192.168.1.5/9160 

Connected to: "TDG Cluster" on 192.168.1.5/9160 


cassandra» get Keyspacei.Standard2['mykey']['rf'] 
-» (column-rf, value-2, timestamp-1279491483449000) 


作为 一 般 性 的 原则 ， 你 可 以 估算 写 吞 吐 量 为 节点 数 除 以 副本 因子 。 所 以 ， 如 果 在 副本 因子 为 1 的 
Pim 一 个 10 节 点 的 集群 的 4 型 吞吐 能 力 大 约 是 10 000 次 写 每 秒 ， 那 么 当 把 副本 因子 提高 到 2， 
能 力 大 约会 是 5000 次 写 每 秒 。 


65 “分 区 器 
未 来 已 经 到 来 ， 只 是 分 布 尚 不 均匀 。 


i 


E 


— —William Gibson 


分 区 器 (partitioner) 的 用 途 是 允许 你 指定 行 键 值 应 该 被 如 何 排序 ， 这 会 严重 影响 数据 在 节点 间 
会 影响 查询 一 个 范围 的 行 时 可 选 的 选项 。 你 可 以 使 ) TEE 同 的 分 区 器 ， 我 们 会 
TXE 介绍 。 


» 


ETTO 舌 用 于 列 的 排序 ， 只 用 于 行 刍 值 的 排序 。 


可 以 通过 修改 配置 文件 中 的 Partitioner 元 素 或 通过 API 来 设置 分 区 器 。 这 个 元 素 需 要 指定 一 
个 实现 了 org.apache.cassandra.dht.IPartitioner 接口 的 类 的 名 字 。Cassandra 自 带 了 
三 个 分 区 器 : 默认 的 随机 分 区 器 、 有 序 分 区 器 (orderpreserving) ， 以 及 配 页 有 序 分 区 器 
(collating order-preserving) 。 你 还 可 以 实现 org .apache.cassandra.dht.IPartitioner 
接口 来 创建 自己 的 分 区 器 ， 并 放 到 Cassansra 的 classpath 下 。 
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6.5.1 ”随机 分 区 器 


随机 分 JX ar Horg. apache.cassandra.dht.RandomPartitioner 类 实现 ， 是 Cassandra 的 
默认 分 区 器 。 它 使 用 BigIntegerToken 存放 MD5 哈 希 值 ， 通 过 哈 希 值 来 决定 键 值 放 在 环 上 的 
具体 位 置 。 这 样 做 的 好 处 是 可 以 让 键 值 很 均匀 地 分 布 至 | 集群 中 ， 因为 这 个 分 布 是 随机 的 。 。 它 的 
不 足 在 于 区 间 碍 询 的 效率 不 高 ， 因 为 在 一 个 指定 区 间 的 键 值 可 能 会 分 布 在 环 上 很 分 散 的 位 置 ， 
而 且 键 值 的 区 间 碍 询 返 回 的 数据 也 是 随机 顺序 的 。 


652 ”有 序 分 区 器 


有 序 分 区 器 由 org.apache.cassandra.dht.0oOrderPreservingPartitioner 类 实现 ， 
它 实现 了 IPartitioner&ltStringToken> 接口 。 使 用 这 个 分 区 器 ， 令 牌 是 一 个 基于 键 值 的 
UTF-8 字 符 串 。 各 行 是 按照 键 值 的 顺序 存储 的 ， 按 照排 序 顺 序 对 齐 物 理 结构 。 将 列 族 配置 为 使 
有 序 分 区 器 (OPP) ， 人 允许 你 进行 区 间 切 片 (range slice) 操作 。 


值得 注意 的 是 ，OPP 在 区 间 查 询 时 并 不 比 随机 分 区 器 更 有 效率 一 一 它 只 是 提供 顺序 性 。 它 的 一 
个 缺点 是 非常 容易 让 环 不 均衡 ， 因 为 真实 数据 通常 写 得 不 那么 均匀 。 例 如 ， 考 虑 一 下 拼 字 游戏 


不 同 字 母 的 分 值 。Q 和 Z 很 少 被 


E ES 


4 
6.5.3” 配 页 有 序 分 区 器 


ex] 


这 个 分 区 器 使 用 美国 英语 区 域 设 置 (EN US) 进行 键 值 


用 到 ， 所 以 


大量 数据 位 于 某 些 节 点 ， 而 其 他 节点 上 的 数据 逢 
平衡 ， 常 常 被 看 做 是 “热点 *。 这 样 ， 使 用 OPP 就 意味 着 运 
ee et 或 move TRES 


果 你 希望 从 客户 端 进行 区 间 查 询 ， 


UTF- —— € ° 虽然 在 名 字 上 看 ， 它 似乎 是 扩 


就 必须 使 用 有 序 分 


它们 的 分 值 最 高 。 使 用 


eI 


手工 均衡 节点 


o 


AbstractByteOrderedPartitioner 。 因 为 用 途 实 


6.5.4” 字 节 序 分 区 器 


区 器 或 配 页 有 


OPP， 非 常 有 可 能 会 导致 最 
少 。 那 些 存 有 很 多 数据 的 节点 ， 使 得 环 非常 
团队 将 不 得 不 周期 性 地 使 用 


FF Egi 


排序 。 类 似 OPP， 这 个 分 区 器 同样 使 用 


在 有 限 ， 


0.7 版 本 里 ， 开 发 团队 新 增加 了 ByteorderedPartitioner ， 


数据 看 做 是 名 字 世 ， 而 不 会 像 有 序 分 区 器 和 配 页 有 序 分 


展 了 OPP， 实 则 不 然 。 事 


这 个 分 


d 


us 


上 ， 它 派生 自 


区 器 很 少 被 使 用 。 


要 有 序 分 区 器 ， 但 不 需要 验证 键 值 


6.6 Snitch 


Snitch 的 工作 就 是 用 于 确定 主机 间 的 KEA 


E 


互 关 系 。Snitch 收 集 


网 络 拓扑 的 信 ， 


这 也 是 一 种 有 序 分 区 器 ， 它 将 
区 器 那样 首先 转换 为 字符 串 。 如 果 需 
是 否 是 字符 串 ， 推 荐 使 用 字 节 序 分 区 器 来 提高 性 能 。 


S. LJ fi Cassandra 


可 以 有 效 地 路 由 请 求 信息 。Snitch 可 以 指出 某 个 节点 相对 于 其 他 节点 的 位 置 。 


策略 推断 证 点 属于 哪个 数据 中 心 等 信息 。 


6.6.1 Simple Snitch 


已 可 以 为 副本 放置 


Cassandra 默 认 使 用 org,.apache.cassandra.1Llocator .EndPointSnitch1。 它 简单 地 比 


较 节 点 IP 地 址 的 每 个 字 节 。 如 果 两 


个 主机 的 地 址 的 第 二 


ZN DOE 


PHP 


是 一 样 


的 ， 那 就 认为 它们 在 


是 ”意味 着 Cassandra 的 判断 基于 这 


个 数据 中 心 ， 如 果 两 个 主机 的 Tp 地址 的 第 三 位 是 相同 的 ， 
样 一 个 假设 你 的 服务 器 会 放 在 不 同 的 VLAN 或 子 网 中 。 


译注 1: 0.7 版 本 中 是 org .apache.cassandra.locator.SimpleSnitch ° 


就 认为 它们 五 


可 一 


FE 同一 个 机 架 上 。“ 认 为 


Simple Snitch 是 在 0.7 版 本 中 被 重 命名 的 ， 之 前 的 版 本 中 称 为 endpoint snitch ° 


可 以 通过 修改 配置 文件 中 的 <EndPointSnitch> 元 素来 配置 endpoint snitch。 另 一 个 可 用 的 选 


择 是 PropertyFileSnitch 。 


6.6.2 PropertyFileSnitch 


org.apache.cassandra.locator.PropertyFileSnitch E7 


0.7 版 本 中 被 移动 到 了 主 代码 部 分 了 。 这 个 Snitch 允 许 在 使 
配置 文件 称 为 cassandra-rack.properties ° 


键 / 值 properties 文 件 来 指定 更 具体 


的 节点 位 置 ， 


这 个 l'Snitch gg 开发 ， 它 们 使 / 


]Cassandra7Í 


节点 的 位 置 ， Casandia T RMNPE RNT 个 数据 


FEES DURA D 


H 
Bj 


它们 的 开发 成 果 


DÒ, 


或 是 


位 于 contrib 之 中 ,在 
用 机 架 感 知 策略 时 ， 通 过 一 个 标准 的 


a 


/ 


个 Snitch 让 你 告 之 
E 一 个 机 架 上 。 如 


党 移动 服务 器 ， 或 者 采用 了 一 个 非常 复杂 的 耳 地址 方案 ， 这 个 Snitch 将 非 


cassandra-rack.properties 的 默认 配置 是 这 样 的 : 


Nm 


# Cassandra Node IP-Data Center:Rack 
10.0.0.10-DC1:RAC1 
10.0.0.11-DC1:RAC1 
10.0.0.12-DC1:RAC2 


10.20.114.10-DC2:RAC1 
10.20.114.11-DC2:RAC1 
10.20.114.15-DC2:RAC2 


# default for unknown nodes 
default=DC1:r1 


p 有 两 个 数据 中 心 ， 每 个 有 两 个 机 架 。Cassandra 可 以 依 此 高 效 地 判断 出 节点 的 均 


修改 这 个 文 牛 中 的 每 个 值 来 反映 集群 的 配置 ， 指 定 有 哪些 IP 的 节点 属于 哪个 机 架 、 哪 个 数据 中 
心 。 昌 然 如 果 经 常 希望 增加 或 移 走 节点 ， 这 个 文件 会 很 难 维护 ， 但 通过 牺牲 一 点 灵活 性 和 易 维 
P 竹 换 下 了 更 多 的 控制 和 和 好 的 运行 时 效率 ， 寻 为 Cassandra 不 必 去 判断 节点 的 位 置 了 ， 而 是 你 
直接 告诉 它 每 个 节点 在 什么 位 置 。 


El 于 晋升 为 标准 发 布 版 的 一 部 分 之 前 ，PropertyFileSnitch 曾经 叫做 
PropertyFileEndPointSnitch ， 位 于 contrib 目录 下 ， 如 果 你 希望 在 网 上 查找 相关 信 
息 的 话 也 可 以 参考 原来 的 名 字 。 


67 ”创建 集群 


可 以 在 一 个 单 节点 上 运行 Cassandra， 这 对 于 开始 熟悉 Cassandra、 学 习 如 何 读 写 数 据 很 有 用 。 但 
Cassandra Ej 由 很 多 台 机 器 组 成 的 集群 而 设计 的 ， 可 以 利用 多 人 台 计 算 机 的 能 力 ， 提 供 很 高 
的 容量 。 在 本 节 中 ， 我 们 可 以 看 到 ， 要 让 一 个 环 上 的 多 个 Cassandra 实 例 相 互通 信 ， 都 需要 做 什 
9n o 


0.6 版 本 


正在 发 生 翻 天 履 地 的 变化 。 本 节 适 用 于 如 何 使 


各 在 本 书写 作 时 ， 整 个 配置 机 抽 
来 创建 一 个 集群 。 


这 里 ， 我 们 要 做 的 是 使 用 Cassandra 自 带 的 示 : 例 keyspace 来 确保 多 合 机 器 在 同一 个 环 上 。 我 们 将 
从 默认 配置 文件 和 keyspace 定 义 开 始 ， 只 改变 那些 用 来 创建 一 个 简单 集群 需要 的 设置 


在 这 个 练习 中 ， 假 设 我 们 有 两 台 机 器 ， 要 配置 为 一 个 Cassandra 集 群 ，IP 地 址 分 别 为 192.168.1.5 
和 192.168.1.7。 当 启动 Cassandra 时 ， 它 读 取 配置 文件 来 确定 你 希望 当前 的 节点 如 何 对 外 广播 ， 
也 就 是 说 ， 绑 定 哪个 IP 地 址 和 端口 。 你 需要 告诉 当前 的 节点 其 他 节点 的 信息 ， 这 样 它 才 可 以 参 
与 到 同一 个 环 中 。 这 些 都 可 以 通过 在 文本 编辑 器 里 编辑 配置 文件 ， 修 改 几 个 值 来 完成 ， 正 如 我 
们 将 要 给 出 的 例子 这 样 。 


集群 中 的 新 节点 需要 一 个 种 子 节点 (seednode) ° WRT on 点 B 的 种 子 节 点 ， 当 节点 B 
上 线 时 ， 节 点 B 会 把 节点 A 当做 一 个 参考 点 ， 从 它 获取 数据 。 种 子 节点 会 忽略 AutoBootst rap 
设置 ， 因 为 它 会 认为 自己 是 集群 中 的 第 一 个 节点 。 


过 


6.7.1 


Cassandra fé fh 


TE o 


集群 


名 称 


修改 集群 名 称 


ip ECT 


四 


和 有 一 个 名 字 ， 这 样 可 以 避免 一 个 集群 
中 默认 的 集群 名 


Aa 


已 经 在 现 有 的 Cassandra 集 群 


要 确定 已 经 在 希望 加 入 到 集群 


AL 
VN 


6.7.2 


配置 
入 了 
有 一 


试 局 动 节 点 读 取 数 据 文 
给 集群 增加 节点 
文件 中 有 


数据 ， 现 在 希望 在 
个 Cassandra 服 务 器 ， 


件 时 给 出 集群 


个 元 素 默 认 设 为 了 false。 假设 你 已 
集群 中 加 入 更 多 


节 


中 写 入 了 数据 ， 然 后 再 
名 称 不 匹配 的 警告 


HE F 


占 


YN) 


可 以 使 | 


， 然 后 自 


经 运行 了 一 个 集 和 
jautobootstrap 元 素 


修改 集群 


f£， 或 者 有 一 个 节点 


中 的 节点 误 加 入 一 个 你 不 希望 它 参 与 的 集 
称 为 “Test Cluster”。 可 以 通过 更 新 <clusterName> 元 素来 修改 
中 的 所 有 节点 上 都 修改 了 这 个 值 


T. 


名 称 ， 


Cassandra 会 在 


己 关 闭 。 


fe 


o 
这 点 


来 做 到 这 


运行 在 卫 地 址 后 缀 为 1. 5 的 机 器 上 ， 下 面 是 NodeTool 的 输出 : 


Load 
433.43 MB 


Status 
Up 


$ bin/nodetool -h 192.168.1.5 ring 
Address 
192.168.1.5 


Range 


126804671661649450065809810549633334036 


Ring 
|&lt--| 


E 


一 个 种 子 节 点 ，) 


文 台 服 务 器 有 上 自 


e. 
La 


。 如 果 要 增加 新 的 种 子 节点 ， 那 么 需 


的 也 地 址 ， 我 们 设 autobootstrap 为 false， 
先 让 它 autobootstrap ， 


然 


因为 这 个 节点 本 


后 将 它 变 为 种 子 节 点 。 


身 是 然 
如 有 果 节 点 B 要 使 用 节点 A 作为 种 子 ， 那 么 节点 B 就 应 该 在 它 的 配置 文件 中 把 节点 A 设 为 种 子 市 

点 。 但 节点 A 不 需要 自己 声明 为 种 子 。 

现在 我 要 加 入 另 一 个 节点 来 分 担负 载 。 这 个 节点 的 地 址 后 级 为 1.7。 首 先 ， 确 定 集 群 中 的 所 有 节 
扩 设 置 的 集群 名 和 keyspace 定 义 都 是 相同 的 ， 这 样 ， 新 节点 才 可 以 接收 数据 。 编 辑 第 二 个 节点 的 
配置 文件 ， 指 定 第 一 个 节点 作为 种 子 。 然 后 把 autobootstrap 设 置 为 true 。 

当 第 二 个 节点 启动 的 时 候 ， 已 会 立刻 发 第 一 个 节点 ， 之 后 会 休眠 90 秒 钟 ， 让 节点 们 通过 gossip 
传播 信息 ， 确 定 每 个 节点 应 该 存储 多 少数 所 之 后 ， 从 第 一 个 节点 获取 自 举 令 牌 (bootstrap 
token) ， 这 样 就 知道 自 a 和 目 举 令 牌 的 负载 是 最 高 负载 节点 的 一 半 。 之 


后 ， 


个 节点 


2N 


第 二 再 次 休 服 


民 30 秒 ， 然 


后 开始 


自 举 o 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


INFO 
INFO 


X1: 
iT: 
X1: 
X1: 
XT: 
LL; 
11: 
i. 
i1: 


45 
45 
45 
45 


:43, 652 
:43, 886 
:43, 901 
:45, 742 
45:46,818 
45:46,818 
45:46, 865 
47:13,913 
47:16,004 


Starting up server gossip 
Joining: getting load information 

Sleeping 90000 ms to wait for load information... 
Node /192.168.1.5 is now part of the cluster 
InetAddress /192.168.1.5 is now UP 

Started hinted handoff for endPoint /192.168.1.5 
Finished hinted handoff of © rows to endpoint /192.168.1.5 
Joining: getting bootstrap token 

New token will be 41707658470746813056713124104091156 


313 to assume load from /192.168.1.5 


11:47:16,019 Joining: 
11:47:46,034 Bootstrapping 


sleeping 30000 ms for pending range setup 


根据 
st 


所 拥有 的 数据 量 ， 你 会 


reams 命令 来 观察 


看 到 新 节点 在 一 定时 
自 举 过 程 中 的 数据 传输 。 


在 自 


EL 


举 进 行 


个 节点 那 / 


过 程 中 观测 发 生 了 什么 ， 还 是 要 使 用 no 


H] 
pars 


看 日 


接收 到 人 负载， 你 将 得 到 一 个 新 节点 已 


之 后 进入 工作 状态 。 


可 以 使 用 Nodetool 的 


志文 件 也 是 确定 
detool streams 。 最 终 ， 新 节点 将 会 从 
点 已 经 启动 的 操作 成 功 提示 : 


自 举 


P 


完成 的 好 办 法 ,但 要 


INFO 
INFO 
INFO 


INFO 
INFO 


11:52:29,361 Sampling index for /var/lib/cassandra/data\Keyspace1\ 
Standard 1-1-Data.db 
11:52:34,073 Streaming added /var/lib/cassandra/dataNKeyspace1N 
Standardi-1-Data.db 
11:52:34,088 Bootstrap/move completed! Now serving reads. 
11:52:34,354 Binding thrift service to /192.168.1.7:9160 
11:52:34,432 Cassandra starting up... 


如 你 所 见 ， 数 据 传输 大 概 用 了 4 分 钟 左 右 。 
在 自 举 期 间 ， 在 1.5 的 F) 节点 看 起 来 是 这 样 的 : 


J1- 
TE 


自 举 


INFO 11:48:12,955 Sending a stream initiate message to /192.168.1.7... 
INFO 11:48:12,955 Waiting for transfer to /192.168.1.7 to complete 
INFO 11:52:28,903 Done with transfer to /192.168.1.7 


JZE 


现在 ， 我 们 可 以 再 次 运行 nodetool ， 来 确定 一 


$ bin/nodetool -h 192.168.1.5 ring 


Address Status Load Range Ring 
126804671661649450065809810549633334036 
41707658470746813056713124104091156313 | &lt--| 


126804671661649450065809810549633334036 |-->| 


229.56 MB 
459.26 MB 


192.168.1.7 
192.168.1.5 


Up 
Up 


5) 分 出 了 一 半 的 负载 给 1.7， 成 功 的 自 
作 了 ， 我 们 在 1.5 添 加 一 个 值 


Cassandra 已 经 通过 从 之 前 的 节点 (1. 
我 们 有 了 一 个 两 节点 的 集群 。 要 确保 它 已 经 


cassandra» connect 192.168.1.5/9160 

Connected to: "TDG Cluster" on 192.168.1.5/9160 

cassandra» set Keyspacei.Standard2['mykey']['co1l0']-'value8' 
Value inserted. 


然后 打开 第 二 个 命令 行 客户 端 ， 从 1.7 节 点 读 这 个 值 : 


cassandra» connect 192.168.1.7/9160 

Connected to: "TDG Cluster" on 192.168.1.7/9160 
cassandra» get Keyspacei.Standard2['mykey']['co10'] 

=> (column-colO, value-valueO, timestamp-1278878907805000 


o 
PSY 


你 可 以 重复 这 些 步 又 来 在 你 的 集群 中 加 入 更 多 的 节 


m 


如 果 集 群 
nodetool 的 时 候 可 以 看 到 一 个 问号 


中 某 个 节点 有 什么 地 方 出 错 T (可 能 是 掉 线 了 ， 不 过 Cassandra 无 法 确定 ) 


那么 运行 


$ bin/nodetool -h 192.168.1.5 ring 


Address Status Load Range Ring 
112711146095673746066359353163476425700 
192.168.1.5 Up 459.26 MB 27647275353297313886547808446514704912 |&lt-- 


192.168.1.7 ? 


229.53 MB 112711146095673746066359353163476425700 | -->| 


673 ”多 种 子 节点 


这 样 Cassandra 可 以 了 解 


Cassandra 人 允许 你 指定 多 个 种 子 节 点 。 种 子 节 点 用 作 其 他 节点 的 联络 点 ， 
集群 的 拓扑 ， 也 就 是 说 ， 哪 些 节点 负责 哪些 键 值 区 间 。 

默认 情况 下 ， 配 置 文件 中 只 有 一 个 seed 项 : 

V fuod 


BERIA EREEREER, REIRME — PR TUAE T o 311] 
指出 种 子 节点 的 IP 或 主机 名 就 可 以 设置 让 两 个 服务 器 作为 种 子 : 


口 2m 


配置 文件 


只 需要 


Seeds : 
- 192.168.1.5 
- 192.168.1.7 


Aa 


LI» zr 自己 的 卫 作 为 种 子 节 点 ， 那 么 autobootstrap 元 素 必 须 置 为 false。 一 个 方 
法 是 先 启动 三 个 或 五 个 节点 作为 种 子 ， ld 也 就 是 说 ， 手 工 选择 令 牌 或 允 计 
Cassandra 随 机 选择 2 。 其 余 的 节点 将 不 会 再 做 种 子 ， 它 们 将 使 用 autobootstrap 加 入 集群 。 


接 下 来 ， 我 们 需要 更 新 这 人 台 机 句 的 监听 地 址 ， 不 能 只 监听 本 地 还 回 地 址 。 监 听 地 址 是 节点 互相 
识别 的 标识 符 ， 并 用 于 所 有 的 内 部 通信 


listen address: 192.168.1.5 


最 后 ， 我 们 需要 修改 另 一 个 地 址 ，RPC 客 户 端 将 会 在 这 个 地 址 上 进行 广播 ， 因 为 这 是 其 他 节点 
看 到 本 节点 的 方法 。 默 认 情 况 下 ， 配 置 文件 有 一 个 rpc_address 配置 项 ， 使 用 的 是 localhost 。 
我 们 将 会 修改 这 个 值 为 每 台 机 器 的 真实 的 卫 地 址 ; 


rpc_address: 192.168.1.5 
这 项 rpc_address 设置 仅 用 于 客户 端 到 Cassandra 节 点 的 直接 连接 。 


A a 


T 


[= 


as 
uM 


—-—* 5 rpc, adress 曾经 叫做 ThriftAddress ， 不 过 因为 在 未 来 的 版 本 中 ， 可 能 会 使 用 
Avro 替换 Thrift 作 为 RPC 机 制 ， 这 个 参数 就 改 成 了 一 个 更 为 通用 的 名 字 。 


现在 ， 可 以 重新 启动 Cassandra， 并 开始 启动 其 他 机 器 上 的 系统 。 如 果 你 能 成 功 的 在 集群 中 加 入 
多 个 六 点 ， 训 会 看 到 奖 似 下 面 的 输出 你 的 日 志 可 能 没有 这 么 多 内 容 ， 因 为 我 打开 了 debue 级 的 
HU 


INFO 15:45:15,629 Starting up server gossip 
INFO 15:45:15,677 Binding thrift service to /192.168.1.5:9160 


up 


INFO 15:45:15,681 Cassandra starting up. 
DEBUG 15:45:16,636 GC for ParNew: 13 ms, 12879912 reclaimed leaving 
11233080 used; max is 1177812992 
DEBUG 15:45:16,647 attempting to connect to /192.168.1.7 
DEBUG 15:45:17,638 Disseminating load info ... 
INFO 15:45:19,744 Node /192.168.1.7 is now part of the cluster 


DEBUG 15:45:19,746 Node /192.168.1.7 state normal, token 
41654880048427970483049687892424207188 

DEBUG 15:45:19,746 No bootstrapping or leaving nodes -» empty pending 
ranges for Keyspacei 

INFO 15:45:20,789 InetAddress /192.168.1.7 is now UP 


DEBUG 15:45:20,789 Started hinted handoff for endPoint /192.168.1.7 
DEBUG 15:45:20,800 Finished hinted handoff for endpoint /192.168.1.7 


DEBUG 15:46:17,638 Disseminating load info ... 


这 些 输出 显示 ， 我 的 集群 中 有 两 个 节 点 : 我 刚刚 启动 的 节点 正在 监听 192.168.1.5， 另 一 个 已 经 
启动 并 且 运 行 的 节点 ， Mh 


6.8 ”动态 加 入 环 


Cassandra 集 群 中 的 节点 可 以 随时 下 线 、 上 线 ， 而 不 影响 到 集群 的 其 他 部 分 (假设 使 用 
副本 因子 和 一 致 性 级 别 ) : 假设 我 们 启动 了 67 节 提 到 的 一 个 两 节点 集群 。 现 在 有 故障 发 
中 一 个 节点 掉 线 了 ， 我 们 需要 确认 集群 的 其 他 部 分 仍然 可 以 工作 : 


INFO 15:34:18,953 Starting up server gossip 

INFO 15:34:19,281 Binding thrift service to /192.168.1.7:9160 

INFO 15:34:19,343 Cassandra starting up... 

INFO 15:45:19,396 Node /192.168.1.5 is now part of the cluster 

INFO 15:45:20,176 InetAddress /192.168.1.5 is now UP 

INFO 16:13:36,476 error writing to /192.168.1.5 

INFO 16:13:40,517 InetAddress /192.168.1.5 is now dead. 

INFO 16:21:02,466 error writing to /192.168.1.5 

INFO 16:21:02,497 error writing to /192.168.1.5 
Ey 7 = J 5 y] qc =i TER Ee 

错误 消息 将 复 ， 直 到 节点 1.5 重 新 上 线 位 置 。 运 行 nodetool 就 可 以 看 到 ， 这 个 节点 已 经 

下 线 ， 而 其 他 节点 仍 在 工作 中 。 

x 4 A k +e E B 一 B E + 

我 们 恢复 这 个 节点 ， 并 检查 1.7 的 日 志 。 显 然 ，Cassandra 已 经 自动 地 发 现 了 另 一 个 节点 已 经 回 到 
了 人 

集群 了 ， 并 且 开始 提供 服务 ; 


NFO 16:33:48,193 error writing to /192.168.1.5 
NFO 16:33:51,235 error writing to /192.168.1.5 


NFO 16:34:20,126 Standard2 has reached its threshold; switching in a 
fresh Memtable at CommitLogContext(file-'/var/lib/cassandra/commitlogN 
CommitLog-127759165782.10g', position-752) 

NFO 16:34:20,173 Enqueuing flush of Memtable(Standard2)07481705 

NFO 16:34:20,251 Writing Memtable(Standard2)07481705 

NFO 16:34:20,282 LocationInfo has reached its threshold; switching in a 
fresh Memtable at CommitLogContext(file-'/var/lib/cassandra/commitlogN 
CommitLog-127759658782.10g', position-752) 

NFO 16:34:20,298 Enqueuing flush of Memtable(LocationInfo)8024804063 

NFO 16:34:20,579 Completed flushing c:NvarMlibNcassandraNdataNKeyspaceidN 
Standad2-1-Data.db 

NFO 16:34:20,594 Writing Memtable(LocationInfo)024804063 

NFO 16:34:20,797 Completed flushing c:NvarMlibNcassandraNdataNsystemN 
LocationIfo-2-Data.db 

NFO 16:34:58,159 Node /192.168.1.5 has restarted, now UP again 

NFO 16:34:58,159 Node /192.168.1.5 state jump to normal 


XXE], THERLSBUDCSPAOEOSIETÉ, EIEN Y RRA 02: 


ebenQümorpheus$ bin/nodetool -host 192.168.1.5 ring 


Address Status Load Range 
41654880048427970483049687892424207188 

192.168.1.5 Up 1.71 KB 20846671262289044293293447172905883342 

192.168.1.7 Up 2 KB 41654880048427970483049687892424207188 


Ring 


|&lt-- 
1-->1 


69 ”安全 
默认 情况 下 ，Cassandra 人 允许 网 络 中 的 任何 客户 


端 连 接 到 你 的 集 和 


为 建 的 安全 机 制 ， 而 是 Cassandra 默 认 配 置 了 一 个 允 计 F 所 有 客户 


不 是 说 Cassandra 没 有 


FE 何 认证 信息 就 可 以 


登录 的 鉴 权 机 制 。Cassandra 的 安全 机 制 是 可 置换 的 
或 者 是 写 你 自己 的 鉴 权 机 制 。 


提 
这 和 意味 着 你 可 以 轻 


人 
换 用 其 他 鉴 权 机 制 ， 


VN 


默认 插入 的 鉴 权 器 是 org .apache.cassandra.auth.AllowAllAuthenticator 。 如 果 要 


求 客 户 端 提供 认证 信息 ， 可 以 使 用 另 一 个 Cassandra 
org. apache.cassandra.auth.SimpleAuthenticator 


j 这 个 鉴 权 器 。 


Ln 


S 


6.9.1 ”使 用 SimpleAuthenticator 


在 config 目 录 中 有 两 个 文件 : 


自 带 的 鉴 权 器 ， 


o EAT 


access.properties/llpasswd. properties access 文 件 中 存放 的 键 / 值 对 用 


我 们 来 看 看 如 何 使 


AEDES i e 


于 指定 允许 访问 某 个 keyspace 的 用 户 ， 不 同 用 


示例 如 下 : 


Keyspacei-jsmith,Elvis Presley,dilbert 


这 里 指出 了 人 允许 访问 Keyspacel 的 三 个 用 户 ， 用 户 名 中 可 以 有 空格 。 


而 passwd.properties 文 件 则 包含 每 个 用 户 及 其 密码 。 这 里 是 一 个 passwd.properties 文 件 的 例子 : 


jsmith=havebadpass 
Elvis\ Presley=graceland4evar 
dilbert=nomoovertime 


注意 ， 因 为 Elvis Presley 的 用 户 名 中 包 仿 空格， 必须 使 用 一 个 反 斜 杠 来 转 义 空格 。 


要 使 用 简单 鉴 权 器 ， 需 要 在 cassandra.yaml 之 中 替换 authenticator 元 素 的 内 容 。 从 
org.apache.cassandra.auth.AllowAllAuthenticator 变 为 需要 登录 的 实现 类 的 名 


字 : org.apache.cassandra.auth.SimpleAuthenticator 。 


如 有 果 还 没有 正确 配置 鉴 权 文件 ， 那 么 会 得 到 这 样 一 条 错误 信息 : 


TEE 


ERROR 10:44:27,928 Fatal error: When using org.apache.cassandra.auth. 
SimpleAuthenticator 
access.properties and passwd.properties properties must be defined. 


这 是 因为 还 有 一 步 没 有 做 完 : 我 们 必须 告诉 Cassandra 入 口 和 passwords 文 件 的 位 置 ， 这 要 使 用 
bin/cassandra.in.sh 包 含 脚本 » 我 们 通过 在 文件 尾 部 加 入 如 下 代码 ， 把 文件 的 位 置 传 给 JVM 。 我 的 
include 文 件 现 在 看 起 来 就 像 这 里 的 片段 ， 为 文件 指出 完全 路 径 : 


JVM_OPTS=" 
-Dpasswd.properties=/home/eben/books/cassandra/dist/ 

apache-cassandra-0.7.0-beta1/ 

conf/passwd.properties 
-Daccess.properties-/home/eben/books/cassandra/dist/ 

apache-cassandra-0.7.0-beta1/ 

conf/access.properties" 


如 果 你 指定 了 错误 的 文件 位 置 或 名 称 ， 服 务 器 会 给 出 相应 的 出 错 信息 : 


ERROR 11:13:55,755 Internal error processing login 
java.lang.RuntimeException: Authentication table file given by property 
passwd.properties 

could not be found: /somebadpath/my.properties (No such file or directory) 


配置 成 功 之 后 ， 我 们 可 以 使 用 用 户 名 和 和 密码 来 登入 命令 行 界面 了 : 


[defaultQunknown] connect localhost/9160 

Connected to: "Test Cluster" on localhost/9160 
[defaultQunknown] use Keyspacei jsmith 'havebadpass' 
Authenticated to keyspace: Keyspacei 
[jsmithQKeyspace1] 


如 果 输 入 了 错误 的 密码 ， 客 户 端 会 提示 : 


[defaultQunknown] use Keyspacei jsmith 'havebadpassfdfdfd' 
Exception during authentication to the cassandra node: verify keyspace 
exists, and you are using correct credentials. 


如 采 输 入 了 不 存在 的 用 户 名 ， 或 试图 通过 鉴 权 登入 到 这 个 用 户 没 有 访问 权限 的 keyspace， 会 得 到 
这 样 的 出 错 信 息 : 
[defaultQunknown] use Keyspacei dude 'dude' 


Login failure. Did you specify 'keyspace', 'username' and 'password'? 
[defaultQunknown] 


有 一 点 让 人 不 解 的 是 ， 如 果 你 使 用 正确 的 用 户 名 密码 ， 登 录 一 个 没有 访问 权限 的 keyspace， 会 看 


到 鉴 权 信息 ， 但 接 下 来 你 将 不 能 进行 任何 操作 。 如 下 面 的 例子 ， 我 们 进入 一 个 需要 鉴 权 的 


keyspace。 命 令 行 界面 似乎 允许 鉴 权 ， 但 我 们 不 能 访问 和 


[default@Keyspace1] get Standardi['user123']['name'] 
Your credentials are not sufficient to perform READONLY operations 
[defaultQKeyspace1] 


ETA]: 


假设 已 经 为 这 个 用 户 设置 了 'name ' (E, WRR TEK 


操作 : 


的 认证 信息 ， 我 们 就 应 该 能 进行 这 个 


[default@Keyspace1] use Keyspace1 eben 'pass' 

Authenticated to keyspace: Keyspacei 

[ebenQKeyspacei1] get Standardi['user123']['name'] 

=> (column-6e616d65, value-bootsy, timestamp-1284316537496000) 
[ebenQKeyspace1] 


还 能 在 连接 到 命令 行 界面 的 时 候 一 起 输入 用 户 名 和 密码 : 


eben@morpheus : -/books/cassandra/dist/apache-cassandra-0.7.0-beta1$ 
bin/cassandra-cli --host localhost --port 9160 


--username jsmith --password havebadpass --keyspace Keyspacei 


Connected to: "Test Cluster" on localhost/9160 
Welcome to cassandra CLI. 


Type 'help' or '?' for help. Type 'quit' or 'exit' to quit. 
[jsmithQKeyspacei] get Standardi['user123']['name'] 

=> (column-6e616d65, value-bootsy, timestamp-12843165374960900) 
[jsmithQKeyspace1] 


LH 


运行 查询 就 可 以 返回 结果 。 


Aa 


E» 在 0.6 版 本 中 没有 提供 通过 Thrift API 的 登录 操作 


， 所 以 ， 如 采 移 局 动 命令 行 ， 再 连接 到 


一 个 需要 认证 的 keyspace， 操 作 将 无 法 成 功 。 但 在 0.7 版 本 中 ， 已 经 加 入 了 登录 操作 ， 没 有 这 


个 问题 了 。 


Aa 


[2]. 在 0.7 版 本 中 ， 鉴 权 器 被 分 为 LAuthenticator 


(负责 鉴 权 ) 和 IAuthority (负责 


授权 ) 。SimpleAuthenticator 类 也 把 授权 的 功能 剥离 到 SimpleAuthority 类 中 了 。 
SimpleAuthenticator 类 只 读 取 passwd.properties 文 件 ， 而 SimpleAuthority 只 读 取 


access.properties 文 件 。 


6.9.2 ”编程 鉴 权 


如 果 你 为 keyspace 设 置 了 鉴 权 ， 那 么 你 的 客户 端 应 用 代码 就 需要 登录 操作 。 可 以 参考 例 6-2 的 代 


码 。 


ffle-2: 编程 鉴 权 登录 到 一 个 keyspace 


package com.cassandraguide.config; 


import java.util.HashMap; 
import java.util.Map; 


import 
import 
import 
import 
import 
import 
import 
import 


/** 


org. 
org. 
org. 
org. 
org. 
org. 
org. 
org. 


apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 
apache. 


cassandra.thrift.AccessLevel; 
cassandra.thrift.AuthenticationRequest; 
cassandra.thrift.Cassandra; 
thrift.protocol.TBinaryProtocol; 
thrift.protocol.TProtocol; 
thrift.transport.TFramedTransport; 
thrift.transport.TSocket; 
thrift.transport.TTransport; 


* 如 何 连 接 到 设置 了 SimpleAuthenticator 的 keyspace 
zy 
public class AuthExample { 


public static void main(String[] args) throws Exception { 


TTransport tr = new TSocket("localhost", 9160); 
TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tr.open(); 


AuthenticationRequest authRequest - new AuthenticationRequest(); 
Map&ltString, String» credentials - new HashMap(); 
credentials.put("username", "jsmith"); 
credentials.put("password", "havebadpass"); 
authRequest.setCredentials(credentials); 


client.set keyspace("Keyspace1"); 
AccessLevel access - client.login(authRequest); 


System.out.println("ACCESS LEVEL: " + access); 
tr.close(); 


为 键 、 


EDU - 其 次 ， 需 要 单独 调用 set_keyspace ， 


) 
) 
在 这 种 情况 下 ， 程 序 会 输出 FULL ， 因 为 这 是 用 户 的 访问 级 别 。 
这 里 有 些 问题 需要 注意 。 首 先 ， 认 证 信息 使 用 username 和 password 作为 键 ， 而 非 以 用 户 名 


以 指定 要 鉴 权 的 keyspace。 


6.9.3 ”使 用 MD5 加 密 
SimpleAuthenticator 类 有 两 种 密码 设置 方式 : 明文 文本 和 MD5 加 密 。 到 目前 为 止 ， 我 们 
一 直 使 用 明文 文本 方式 ， 也 是 默认 的 方式 。 为 了 增强 安全 性 ， 可 以 考虑 MD5 方 式 。 MD5 是 一 种 
加 密 算法 ， 是 “消息 摘要 算法 版 本 5 (Message-Digest algorithm version 5) ”的 缩写 (版 本 5 是 说 它 
是 版 本 4 的 一 个 加 强 版 ) 。 ET eru 使 用 输入 数据 生成 一 个 128 位 的 
哈 硕 值 。 值 得 注意 的 是 ， 这 并 非 一 种 非常 安全 的 算法 ， 只 是 更 难 被 破解 而 已 。 
可 以 通过 在 cassandra.in.sh 文 件 中 传 入 passwd .mode 开关 参数 来 启用 MD5 算 法 : 
JVM OPTS-" N 

-da \ 
//other stuff... 

-Dpasswd .mode=MD5" 
现在 ， 如 果 要 使 用 未 加 密 的 密码 ， 就 会 得 到 这 样 一 个 错误 信息 : 
Exception during authentication to the cassandra node, verify you are 
using correct credentials. 
可 以 使 用 多 种 工具 ， 从 明文 用 户 名 密码 通过 单 向 哈 希 来 生成 MD5 加 密 的 版 本 。 这 里 有 一 个 


python 程 序 ， 


可 以 从 明文 字符 串 生 成 MD5 哈 希 : 


$ python 
Python 2.6.5 ... 


>>> from hashlib import md5 

>>> p = "havebadpass" 

>>> h = md5(p).hexdigest() 

»»» print h 
e1a31eee2136eb73e8e47f9e9d13ab0d 


现在 ， 在 passwd.properties 文 件 中 使 用 上 面 这 个 加 密 值 来 蔡 换 jsmith 的 密码 就 可 以 了 。 


69.4 ”提供 你 自己 的 鉴 权 算 法 


如 采 你 有 自己 的 特殊 需求 ， 可 以 为 Cassandra 提 供 你 自己 的 鉴 权 算法 ， 比 如 Kerberos 认证 或 加 
或 者 你 希望 将 密码 存在 其 他 位 置 ， 比 如 LDAP 目 录 。 要 创建 你 自己 的 鉴 权 方法 ， 只 要 实现 

ee 接口 即 可 。 这 个 接口 需要 提供 两 个 方法 ， 如 下 : 

public AccessLevel login(String keyspace, AuthenticationRequest 


authRequest) 
throws AuthenticationException, AuthorizationException; 


P2 


public void validateConfiguration() throws ConfigurationException; 


login 方法 返回 一 个 Thrift AccessLevel 实例 ， 并 指定 用 户 被 授权 的 访问 级 别 。 
validateConfiguration 方法 用 于 检查 鉴 权 机 制 是 否 被 正确 设置 了 。 比 如 ， 对 了 
SimpleAuthenticator ， 就 会 检查 是 否 指定 了 access 和 password 文 件 。 


610 ”杂项 设置 
还 有 一 些 通用 设置 ， 不 属于 之 前 的 那些 分 类 ， 我 把 它们 都 集中 在 这 里 了 。 
e column_index_size_in_kb 


文 个 配置 项 指定 了 两 次 列 索 引 之 间 ， 一 行 可 以 增长 的 尺寸 ， E m. 

大 ， 可 能 需要 提高 这 个 参数 的 值 。 超 级 列 没有 索引 ， 所 以 ， 这 个 设置 只 针对 列 索 引 。 这 

设置 一 般 不 会 设计 得 很 大 ， QU Ra E SUE 时 都 要 用 到 ， 所 以 ， 如果 这 个 

可 能 会 使 Cassandra 的 速度 受到 影响 。 这 对 于 经 常 读 取 部 分 行 的 应 用 
景 尤 为 重 


e in memory compaction limit in mb 


个 值 代表 了 在 内 存 中 进行 压 紧 操作 的 行 的 尺寸 限制 。 如 采 一 行 的 长 度 超过 了 j 这 个 值 ， 那 
Ag 会 分 段 放 在 磁盘 上 进行 压 紧 操 作 ， 这 会 让 压 紧 操 作 变 成 更 慢 的 两 步 操 作 。 这 个 值 默 认 
ed MB。 在 Cassandra 0.7 之 前 的 版 本 ， 这 个 设置 称 为 Fow warning threshold in mb 


H 


4 


e gc grace seconds 


个 值 是 对 墓碑 进行 垃圾 回收 之 前 等 竺 的 秒 数 。 墓 碑 用 于 标记 已 删除 数据 ， 这 些 数据 直到 
到 达 这 个 时 间 阔 值 才 会 被 永久 删除 。 这 个 参数 的 默认 设置 是 864 000 秒 ， 也 就 是 10 天 。 这 个 
时 间 看 起 来 有 些 过 长 下， 不 进 你 必须 有 足够 的 时 间 ， 允许 墓碑 传播 到 集群 的 每 个 副本 上 。 
即使 这 样 ， 这 个 时 间 似 乎 也 太 长 ， 因 为 这 个 设计 的 初 束 是， 你 可 能 会 遇 到 硬件 故障 ， 需 要 
时 间 来 让 故障 节点 恢复 工作 ， 这 个 时 间 让 摹 碑 也 可 以 传播 到 这 些 恢 复 的 节点 之 上 。 如 果 罕 
机 节点 在 墓碑 被 清除 的 时 候 还 没有 收 到 墓碑 ， 那 么 读 时 修复 会 导致 没有 设 为 墓碑 的 、 未 被 
删除 的 数据 重新 被 写 入 回 集群 中 来 。 


ai 


o 


当然 ， 如 有 果 有 很 多 删除 操作 ， 可 以 通过 降低 这 个 值 来 让 系统 更 加 整洁 ， 但 是 这 并 不 会 有 什 
么 很 大 的 不 同 。 


e phi convict threshold 


个 值 规定 了 Cassandra 的 故障 检测 算法 的 国 值 ，Phi 值 达到 这 个 值 之 后 ，Cassandra 会 确信 这 
RASA. 这 个 值 的 默认 设置 是 8， 通 常 不 需要 修改 这 个 值 。 但 是 ， 如 果 网 络 状 况 不 
p 是 有 其 他 原因 让 你 认为 Cassandra 在 此 有 误 关 可 以 通过 增加 这 个 值 来 让 点 离线 判 

[L5 o 


Phi 阔 值 与 增 量 故障 检测 器 


A 157 发 起 ， 就 使 用 了 一 种 称 为 增 量 故障 检测 器 (AFD) 的 节 
障 检测 机 制 。 这 个 故障 检测 器 会 为 每 个 进程 (或 节点 ) 给 出 一 个 数值 。 这 个 值 称 为 Phi 。 

们 的 输出 方式 被 设计 为 根据 变化 的 网 络 状 况 ， 自 适应 地 从 下 同上 增长 的 ， 而 不 是 一 人 2 
件 A 只 检查 服务 器 是 否 正 常 工 作 Š 


配置 文件 中 的 Phi 判 定 阐 值 可 以 用 来 调整 故障 检测 器 的 灵敏 度 。 较 低 的 值 提高 灵敏 度 ， 更 高 的 
值 则 降低 灵敏 度 ， 这 并 不 是 线性 的 。 


Phi 值 代表 了 一 个 节点 可 能 是 下 线 了 的 嫌疑 程度 。 Co ED RS 可 以 为 它们 
输出 的 Phi 值 指定 一 个 变量 条 件 。Cassandra 使 用 这 个 机 制 ， 通 常 可 以 在 10 秒 内 发 现 节 点 宕 机 。 


你 可 以 阅读 Phi 增 量 故障 检测 的 原始 论文 http://ddg.jaist.ac.jp/pub/HDY+04.pdf ，Cassandra 的 设 
计 正 是 基于 此 论文 的 。 


6.11 ”附加 工具 
本 节 讨 论 一 些 Cassandra 自 禹 的 杂项 工具 ， 可 以 帮助 你 配置 Cassandra 。 


6.11.1 查看 键 值 


你 可 以 通过 一 个 名 为 sstablekeys 的 脚本 来 查看 SSTables 中 的 键 值 。 要 运行 这 个 脚本 ， 
使 用 把 要 查看 键 值 的 SSTable 的 位 置 输入 给 脚本 即 可 ， 如 下 : 
ebenQmorpheus$ bin/sstablekeys /var/lib/cassandra/data/Hotelier/Hotel-1- 
Data.db WARN 10:56:05,928 Schema definitions were defined both locally 
and in cassandra.yaml. 
Definitions in cassandra.yaml were ignored. 
415a435f 303433 
415a535f303131 


4341535f303231 
4e594e5f 303432 


6.11.2 导入 之 前 版 本 的 配置 


如 果 你 在 0.6 版 本 Cassandra 中 使 用 配置 文件 定义 了 一 个 keyspace， 可 能 希望 将 它 导 入 到 0.7 或 更 高 
UR. 可 以 使 用 一 个 特殊 的 JMX 操 作 StorageService.loadSchemaFromYaml() 。 注 
意 ， 这 个 方法 有 两 个 重要 警示 : 首先 这 个 方法 按照 设计 ， 只 应 该 使 用 一 次 ; 其 次 ， 这 个 方法 可 
能 在 08 中 不 会 提 AT ° 


从 0.7 版 本 开始 ， 用 户 在 cassandra.yaml 中 的 keyspace 定 义 不 会 在 服务 器 启动 的 时 候 默 认 导 入 。 所 
以 ， 你 在 服务 器 第 一 次 启动 的 时 候 会 看 到 这 条 消息 : 


vi 
pu 
E 
yH 


Consider using JMX to call org 
loadSchemaFromYamlY() 


INFO config.DatabaseDescriptor: 


Found table data in data directories. 
.apache.cassandra.service.StorageService. 


为 了 导入 数据 ， 你 需要 调用 loadSchemaFromYam1l JMX 操 作 。 不 过 在 调用 这 
首先 ， 要 从 Sourceforge.net 下 载 mx4j-tools.jar。 下 载 ZIP 文 件 并 解压 到 任意 目 
放 到 Cassandra 的 lib 目 录 。 这 样 你 就 可 以 进行 


EE 


录 。 之 后 把 


E 备 工作 。 


lib 目 录 中 的 JAR 重 命名 为 mx4j-tools.jar， 


JMX 连 接 ， 
互 ， 不 过 这 


Cassandra 进 行 多 下 


JMX A. J 


。 我们 会 在 后 面 


面 讨论 女 


个 命令 之 前 ， 


还 


[fa] fs& FHJMX 5j Cassandra% 


rH 


Æ Jc Cassandra ° 


希望 装 


入 keyspace 进 行 测试 。 现 在 ， 在 加 入 JAR 包 后 


带 的 JConsole 工 具 


4 


接 下 来 ， 打 开 一 个 终端 ， 输 入 命令 jconsole。 这 会 启动 一 个 GUI， 打 开 Java 自 带 
这 个 工具 可 以 内 省 Java 虚 拟 机 ， 并 允许 你 查看 运行 时 的 数据 、 调 用 通过 JMX 暴 露出 来 的 操作 。 


要 加 载 cassandra.yaml 定 义 的 keyspace， 单 击 JConsole 图 形 界面 的 MBeans 标 签 。 展 开 
org.apache.cassandra.service bean， 接 着 点 开 StorageService ， 然 后 是 

Operations ° $J loadSchemaFromYAML 操作 并 点 操作 的 按钮 。 这 将 在 Cassandra 上 执行 
加 载 存放 在 cassandra.yaml 文 件 中 的 schema ° 


要 进行 这 个 将 0.6 的 配置 导入 到 0.7 的 一 次 性 操作 ， 需 要 使 | 
loadSchemaFromYaml 操作 。 操 作 方 法 如 图 6- ABE o 


^ 


TH 2 


jstorageService MBean 的 


和 | Operation invocation: 


|| org.apac careahdia gms 
+) org.apache.cassandra locator 
7| org.apache.cassandra.service 
=| 8 StorageService 
+l Attributes 
=} Operations 
drain 
truncate | 
getNaturalEndpoints 
clearSnapshot 
getRangeToEndpointMap | 
getpendingRangeToEndpo 国 | 
deliverHints | 
forceTableCleanup 
forceTableCompaction 
takeSnapshot 
takeAllSnapshot 
fori bl. 


loadSchemaFromYAML | ( ) 


void 


| MBeanoOperationinfo: 


[Value 


loadSchemaFromYAML 
Operation exposed for management _ 
UNKNOWN 

|void 


| Name 
Description 


|- Descriptor 


J| Value - 


dec ommissio 
move 
jao TRER 


removeToken 


loadSchemaFromYAML 


exportSchema 
| 由 全 StreamingService 


Laj pid: 24373 org.apache.cassandra.thrift.Cassan... | 


图 6-4: 使 用 jconsole 工具 加 载 cassandra.yaml 中 定义 的 老 的 keyspace 
现在 ， 你 应 该 可 以 在 日 志 中 看 到 类 似 这 样 的 信息 : 


F 


Dn. 
17:35:47 INFO thrift.CassandraDaemon: Cassandra starting up... 
:35:48 INFO utils.Mx4jTool: mx4j successfuly loaded 
pra or version 3.0.2 started on port 8081 


INFO config. 
INFO config. 
INFO config. 
INFO config. 
INFO config. 
INFO config. 
INFO config. 


DatabaseDescriptor: 
DatabaseDescriptor: 
DatabaseDescriptor: 
DatabaseDescriptor: 
DatabaseDescriptor: 
DatabaseDescriptor: 
DatabaseDescriptor: 


UTF8Type 
BytesType 
UTF8Type 
TimeUUIDType 
BytesType 
BytesType 


EH 
[Hs 


志 非 常 有 


DatabaseDescriptor H 


已 显示 出 了 加 载 schema 的 操作 。 


你 还 可 以 使 用 org.apache.cassandra.config.Converter 类 来 帮助 你 将 storage- conf.xml 
配置 文件 转化 为 cassandra.yaml 文 件 。 如 果 你 从 0.6 升 级 到 0.7， 这 应 该 是 升级 的 第 一 步 。 要 运行 这 
个 转化 器 ， 得 使 用 bin 目 录 中 的 config-converter 脚 本 。 它 会 读 入 老 配 置 文件 ， 转 化 并 将 内 容 导 
出 。 


US fe 如 果 需 要 导入 导出 数据 ，Cassandra 有 两 个 使 用 JSON 的 脚本 ， 一 个 用 于 导入 JSON 到 
SSTable， 另 一 个 用 于 将 SSTable 导 出 到 JSON ° 


612 ”小结 

本 章 中 ， 我 们 看 了 如 何 设置 Cassandra， 包 括 使 用 API 的 新 的 动态 配置 方法 ， 以 及 一 些 挖掘 原始 

的 自 带 工具 。 我 们 还 看 到 了 如 何 设置 副本 因子 和 Snitch， 以 及 如 何 使 用 合适 的 副本 放置 
H 

如 果 你 更 喜欢 使 用 图 形 界面 而 非 命令 行 界面 ， 可 以 了 解 使 用 Chiton 设 置 Cassandra， 这 是 一 个 


Brandon Williams 用 Python 写 的 基于 GTK 的 Cassandra 济 览 器 。 这 个 项 目 可 以 在 
http://github.com/driftx/chiton 找到 。 


第 7 章 ” 读 写 数据 


现在 ， 我 们 已 经 了 解 了 Cassandra 的 数据 模型 ， 将 继续 研究 Cassandra 读 写 数据 时 进行 的 各 种 查询 
操作 ， 本 章 中 将 使 用 Cassandra 0.6.7-betal ， 这 是 本 章 写 作 时 的 最 新 版 本 。 


7.1 Cassandra 与 RDBMS 查 询 的 不 同 

Cassandra 的 模型 的 查询 方法 与 RDBMS 的 有 很 多 不 同 之 处 ， 这 些 都 非常 重要 ， 需 要 时 时 牢记 。 
7.1.1 没有 Update 查 询 

Cassandra 之 中 ， 并 没有 “update”( 更 新 这 个 初 指 令 概 念 ， 也 就 是 说 ， 没 有 一 个 称 为 “update” 的 
客户 端 查询 命令 。 不 过 ， 你 可 以 通过 对 一 个 已 经 存在 的 行 键 值 执行 一 次 插入 操作 来 完成 同样 的 
工作 。 如 果 对 一 个 已 经 存在 的 键 值 执行 一 个 插入 语句 ，Cassandra 会 覆盖 已 经 存在 的 匹配 的 列 ， 
Dues 查询 中 包含 了 这 个 行 键 值 下 还 不 存在 的 列 ， 那 么 新 的 列 会 被 插入 。 这 个 操作 是 完全 无 颖 
7.4.» ”记录 级 的 写 原子 性 


Cassandra 在 每 次 写 操作 时 ， 自 动 提供 记录 级 的 原子 性 。 而 在 RDBMS 中 ， 你 必须 指定 使 用 行 级 
锁 。 虽 然 Cassandra 提 供 列 族 级 的 原子 性 ， 但 并 不 保证 限 离 性 。 


7.1.3 ”不 支持 服务 端 事务 


因为 你 得 将 表 反 范式 化 来 创建 第 二 索引 ， As uu ee 更 多 个 表 中 C9 
放 入 主 表 ， 其 他 的 用 作 反 向 索引 或 第 二 索引 ) 。 这 意味 着 需要 执行 两 个 插入 语句 。 所 以 ， 如 果 


H 


"n 


m 


n ii 这 般 ， 要 是 一 次 插入 操作 失败 了 ， 就 不 得 不 删除 已 经 插入 的 数据 ， 来 进行 手工 
“ERR” T 


更 准确 地 说 ， 对 于 Cassandra 不 支持 事务 这 点 ， 或 许 只 是 因为 这 本 身 就 不 是 Cassandra 的 设计 目 
标 。 


7.1.4 没有 重复 键 值 


在 SQL 数据 库 中 ， 如 果 没 有 定义 某 列 作为 唯一 的 主键 ， 可 以 插入 多 行 一 样 的 值 。 但 在 Cassandra 
中 ， 这 是 不 可 能 的 。 如 果 对 列 族 中 一 个 已 经 存在 的 键 值 写 入 新 值 ， 原 来 已 经 存在 的 列 就 将 被 覆 
盖 ， 而 先前 不 存在 的 列 也 将 被 加 入 其 中 。 


7.2“ 写 操作 的 基本 属性 


Cassandral] 5 fà RIEA 些 值 得 注意 的 基本 属性 。 首 先 ，Cassandra 的 写 操作 非常 快 ， 这 是 因为 它 
的 设计 允许 在 写 B J^ \ 进 行 任何 磁 续 读 或 定位 (seek) 操作 » memtable 和 SSTable 让 Cassandra 可 以 
不 必 在 写 时 进行 这 些 操作 ， 正 是 这 些 操作 让 很 多 数据 库 变 慢 的 。Cassandra 中 的 所 有 写 操作 都 是 
追加 写 的 。 


因为 数据 库 的 commit log 和 提示 移交 设计 ，Cassandra 总 是 可 写 的 ， 而 且 ， 在 一 个 列 族 内 ， 写 操 
作 总 是 最 小 单元 的 。 


7.3 “一致 性 级 别 


Cassandra 的 可 调 一 致 性 级 别 意味 着 可 以 在 查询 中 指定 需要 多 少 一 致 性 。 高 一 致 性 级 别 意 味 着 更 
多 的 节点 需要 响应 这 次 查询 操作 ， 这 样 可 以 提供 更 高 的 一 致 性 保障 ， 确 保 每 个 副本 都 是 同样 的 


Mm 


值 。 如 果 两 个 节点 的 响应 有 不 同 的 时 间 戳 ， 最 新 的 值 将 会 胜出 ， 并 返回 给 客户 端 。 在 后 
Cassandra 接 下 来 还 会 进行 读 时 修复 操作 : 它 知道 有 些 副 本 存在 过 期 的 数据 ， 并 会 使 用 最 新 的 数 
据 来 更 新 这 些 副 本 ， 保 证 它们 是 一 致 的 。 


Cassandra 中 ， 可 以 在 多 个 一 致 性 级 别 中 进行 选择 ， 相 对 于 写 操 作 ， 一 致 性 级 别 对 于 读 操 作 的 处 
理 上 差异 更 大 。 表 7-1 列 出 了 可 用 的 一 致 性 级 别 ， 以 及 这 些 不 同 的 一 致 性 级 别 对 于 读 查 询 的 意 
Y o 


——— 而 不 是 系统 中 的 节点 总 数 。 
表 7-1 ” 读 一 致 性 级 别 


一 致 性 级 别 * X 
ZERO 不 文 持 。 你 不 能 在 读 操 作 时 指定 cL.zERo ， 因 为 这 没有 意义 。 这 等 于 说 “不 要 从 任何 节点 给 我 数据 
ANY 不 支持 。 应 使 用 cL .oNE 
当 第 一 个 节点 响应 查询 时 ， 立 刻 返 回 该 响应 的 值 。 同 时 会 创建 一 个 后 台 线 程 ， 检 查 这 个 记录 的 其 他 副本 。 如 果 


ONE 


哪个 副本 已 经 过 期 了 ， 接 下 来 就 会 进行 读 时 修复 ， 以 确保 所 有 副本 都 


有 最 新 的 值 


PRU | 型 
E 


寸 间 惟 最 新 的 值 返回 客户 端 。 之 后 ， 如 果 


SN 必要 则 在 后 台 对 其 余 副本 进行 读 时 修复 


查询 所 有 节点 。 当 大 部 分 副本 ( (副本 因子 /2) +1) 返回 的 时 


查询 所 有 节点 。 等 待 所 有 节点 响应 ， 并 把 时 间 惟 最 新 的 记录 返回 给 客户 端 。 之 后 ， 如 果 必 要 的 话 ， 在 后 台 进 行 
一 次 读 时 修复 。 如 果 有 任何 节点 没有 响应 ， 读 操作 都 会 失败 


ALL 


正如 你 在 表 中 看 到 的 ， 
意味 着 客户 站 
客户 端 之 后 会 进行 读 时 修复 操作 ， 
点 是 哪 一 个 。 


另 一 个 值得 注意 的 是 ALL 。 如 果 指 定 ] 


一 致 性 


出 将 得 到 第 一 个 给 出 响应 的 节点 的 值 


FE 级 别 ZERO 和 ANY 对 于 读 操 作 是 不 支持 的 。 注 意 ， 
即使 这 个 值 是 过 期 的 。 


TA, BEP 


CL.ALL , 


一 致 性 级 别 ONE 
因为 在 记录 返回 给 


的 读 操作 都 可 以 得 到 一 致 的 值 ， 


不 论 响应 的 节 


就 是 在 


要 求 月 


JE 


副本 必须 都 给 出 响应 ， 如 果 


王 何 持 有 这 个 记录 的 节点 宕 机 ， 或 由 于 寺 


其 


Cft 


F 何 原 


个 节点 在 一 个 指定 


一 如 果 


你 同样 可 以 为 写 操作 指定 一 
作 的 含义 如 表 7-2 所 示 。 


表 7-2 “” 写 一 致 性 级 别 


致 性 级 别 ， 


t$ 的 时 间 内 未 能 响 
置 文件 中 的 rpc_timeout_in_ms XE, 


不 过 它们 的 含义 有 大 


默认 值 为 10 秒 。 


因 发 生 超时 ， 这 个 读 操作 都 将 失败 。 


应 查询 ， 则 被 判断 为 无 啊 应 。 这 个 时 间 由 配 


$ X 


大 区 别 


o 不 同一 致 性 级 别 对 于 写 操 


在 写 数据 被 i 


BIO 


Hj. 
; 


了 操作 将 会 在 


个 后 台 线 程 中 


异步 完成 ， 无 法 确保 写 操作 一 定 成 功 


写 到 一 个 节点 上 


了 ， 提 示 也 被 


看 做 是 一 


个 成 功 的 写 入 


E 少 已 经 写 入 


到 


一 个 节点 的 commit log 和 


memtable 之 中 了 


E 
子 /2) +1 


已 经 接收 到 数据 了 


= 


— 


最 值得 一 提 的 写 一 致 性 级 别 就 是 ANY 。 


子 指定 数量 的 节点 都 接收 到 数 ] 


这 个 级 别 意 味 着 确保 写 操作 至 少 到 达 了 


NE 


许 提示 被 看 做 是 一 次 成 功 写 入 。 


也 就 是 说 ， 
称 为 提示 
查 是 否 存 有 该 节 点 的 提示 ， 如 果 有 ， 


如 果 你 在 进行 写 


。 如 果 某 个 副本 对 写 操作 无 响应 ， 则 写 操作 会 


失败 


了 一 个 节点 


DHA 


但 允 


RIE, MEIT 点 刚好 都 宕 机 了 ， 


(hint) ， 一 直 保 持 到 


标点 恢复 为 止 。 当 服务 器 


就 会 将 值 写 入 到 恢复 的 节点 


示 的 节点 并 


写 操 作 时 使 用 一 致 性 级 别 ONE ， 


不 是 存储 提示 的 节点 


CL. ONE 写 入 的 数据 
别 。 如 果 这 个 节点 在 写 
3 fl 


复 后 可 以 重 放 操 
不 论 是 读 操 作 还 是 写 操作 ， 


。 在 Cassandra 之 中 ， 
。 在 公式 中 ，R、W、 
新 的 写 入 结果 , R 


7.4” 读 操作 的 基本 属性 


N 分 别 


.要 达到 强 
AERE 


可 以 得 到 强 一 致 性 


m Us 
LZ E 89] ZUR 


意味 着 写 操作 将 被 写 入 到 commit log 和 memtable。 
是 持久 化 的 ， 要 达到 高 性 能 
菜 作 之 后 立刻 掉 线 ， 那么 数据 
FE 数 据 依然 存在 。 


ZERO ^ ANY 和 ONE 都 被 划分 为 弱 一 致 性 ， 
。 因 为 Cassandra 中 的 读 写 操作 可 以 分 别 指定 一 致 性 


` 持久 化 的 写 入 ， 


仍 将 存在 在 commit log 之 中 ， 


EI, 


而 是 会 把 提示 发 送 给 宕 机 市 点 的 


也 就 是 说 ， 
3 的 最 低 的 一 致 性 级 
当 节 点 重 恢 


SERA 


这 是 可 


而 QUORUM 和 ALL 则 属于 


所 以 Cassandra 的 一 致 性 被 认 


可 以 使 ) 上 


o 


Cassandra 的 读数 据 操作 也 有 一 此 


值得 


读 操 作 ， 
所 需 的 


接 集 群 中 的 任意 一 个 节点 来 进行 
本 。 如 果 客 户 端 连接 的 节点 没有 
从 拥有 数据 的 节点 读 取 数 据 。 


提 2" TE 9 Bor, 


数据 ， 


如 下 这 个 流行 的 公式 R+W>N= 强 
[副本 因子 ， 这 时 ， 所 有 客户 端 都 可 


读数 据 非 常 容易 ， 因 为 你 可 以 连 


不 需 需要 知道 哪个 特定 的 节 


1 点 负责 uper 


TA 
EZ 


自己 扮演 协调 节点 的 角 


， 根 据 令 牌 范围 ， 


要 完成 恋 操作 ， Cassandra 需 要 进行 磁盘 定位 操作 ， 但 可 以 通过 增加 内 存 米 加 速 读 操作 。 如 果 你 
发 现 操 作 系 统 在 读 操作 时 有 很 多 分 页 操作 ， 那 么 增加 内 存 可 能 可 以 提高 性 能 (通常 来 说 ， 打 开 
Cassandra 的 各 种 缓存 效果 会 更 好 ) 。Cassandra 必 须要 等 待 一 些 同步 响应 (根据 一 致 性 级 别 和 副 
本 因子 的 要 求 ) ， 之 后 还 要 根据 需要 进行 读 时 修复 。 


基于 上 述 这 些 原因 ， 读 操作 肯定 会 比 写 操作 更 慢 。 分 区 器 并 不 影响 读 操作 的 速度 。 在 进行 区 域 
a 使 用 OPP 会 显著 变 快 ， 因为 它 让 你 更 F 易 判断 哪个 和 党 没有 所 客 的 数据 。 分 区 器 的 职 
Pim 将 键 值 映射 到 节点 。 此 外 ， 你 还 可 以 选择 行 缓存 和 键 值 缓存 策略 来 提升 性 
能 (参考 第 11 章 ) 。 


7.5 API 


本 节 会 给 出 Cassandra API 的 一 个 基本 概述 ， 这 样 我 们 开始 读 写 数据 的 时 候 ， 这 些 生僻 的 名 词 不 
会 看 起 来 那么 难 懂 。 我 们 已 经 知道 了 列 、 超 级 列 和 列 族 这 些 概念 了 ， 列 族 包含 了 列 或 是 超级 
列 ， 超 级 列 只 包含 列 (超级 列 里 不 能 再 向 套 定 义 超级 列 了 ) ， 列 包含 名 / 值 对 和 时 间 戳 。 


在 关系 型 数据 库 中 ，SELECT (选取 ) 、INSERT (插入 ) ` UPDATE (更 新 ) 和 DELETE (Jl 
除 ) 正如 它们 本 身 通俗 的 含义 一 样 。 但 Cassandra API 中 的 结构 却 没有 这 么 直接 ， 让 新 手 可 能 有 
ce 毕竟 现实 生活 中 并 没有 一 个 “切片 区 间 (slice range) ”， 对 这 些 名 词 需要 一 个 适应 的 过 


首先 你 需要 理解 两 个 基本 概念 ， 区 间 (range) 和 切片 (slice) 。 许 多 查询 都 使 用 这 两 个 名 词 定 
义 ， 而 它们 起 先 可 能 有 些 让 人 迷惑 。 


te 列 是 按照 类 型 排序 的 (HiComparewith 指定 ) ， 而 行 是 按照 它们 的 分 区 器 排序 的 。 
区 间 和 切片 


区 间 基 本 源 于 数学 的 “区 间 ” 概 念 ， 当 你 有 一 组 有 序 元 素 时 ， 可 以 通过 指定 开始 元 素 和 结束 元 素 
来 指定 一 个 子 集 。 区 间 指 从 开始 到 结束 之 间 的 所 有 元 素 ， 无 一 例外 。 


区 间 通 常 指 ( 行 ) É 的 范围 。 而 切片 则 用 来 指 一 行 之 中 的 一 个 范围 内 的 列 。 


区 间 依 据 列 族 的 比较 器 (comparator) 来 工作 。 也 就 是 说 ， 给 定 列 a ^ dfe, EEK 
区 间 (a ,c ) 包 含 列 a » b flic 。 所 以 ， AIR ÉL OQ0 E SON EE REIS. 可 以 指定 查询 名 字 是 
35 到 45 这 个 区 癌 之 内 的 列 ， 通过 使 用 区 间 ， 可 以 取出 所 有 指定 的 范围 ( 称 为 一 个 区 间 切 片 ) 之 
内 的 列 ， 或 者 也 可 以 同样 批量 更 新 一 个 区 间 之 内 的 元 素 。 


一 行 中 可 能 会 拥有 上 百 个 列 ， 但 你 不 太 可 能 希望 用 一 个 查询 把 它们 全 都 取出 来 。 列 是 有 序 存 储 
的 ， 于 是 提供 了 区 间 查 询 这 一 手段 ， 可 以 一 次 取出 名 称 在 一 定 范围 之 内 的 列 。 


Sd “区 间 查 询 需 要 使 用 有 序 分 区 器 (OrderPreservingPartitioner ) ， 这 样 键 值 就 可 
以 有 序 返 回 ， 其 顺序 是 由 分 区 器 使 用 的 码 页 (UTF-8 或 en_US) 来 定义 的 。 


当 使 用 随机 分 区 器 并 指定 区 间 查 询 时 ， 无 法 指定 比 “all” 更 罕 的 区 间 。 这 显然 会 有 很 大 开销 ， 
为 可 能 会 包含 更 多 的 网 络 传输 。 而 且 可 能 导致 错过 键 值 。 因 为 同时 可 能 正在 进行 一 次 更 新 ， 
时 行 扫描 将 会 错失 在 你 当前 处 理 的 内 容 之 前 放 到 索引 中 的 更 新 。 


SU. 


还 有 一 点 可 能 会 引起 误解 。 当 从 
哈 希 值 。 所 以 ， 如 果 使 


:使 用 随机 分 
1 Alice*£l"Alison" 间 的 范围 ， 
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TJ 


值 并 不 是 Alice 到 Alison 之 间 的 自然 值 ， 而 是 这 两 个 值 的 哈 希 


H 


t H 二 


fo 
查找 某 特定 键 值 


A 
Z 


如 果 没 有 发 现 ， 


如 下 是 使 用 随机 分 TX ASHT, 

后 客户 端 将 会 连 上 集群 中 的 一 个 自 点 。 这 个 市 点 将 
首先 会 查找 memtable， 查 看 这 个 键 值 是 否 存 在 。 
Bloom filter 查 询 每 个 文件 


值 。 i 


7.6 ”设置 与 插入 数据 


[. c 
[^ RÀ 
L. JON 


v3 z 


的 读 操 作 的 基本 流程 。 
把 请 求 路 由 至 


A 
5 


Fo — H jÑ 过 Bloom filter 找 到 键 值 ， 就 会 打开 


H 


从 


器 的 时 候 ， 必 须 明白 ， 区 间 查 询 会 首先 对 键 值 求 
将 对 每 个 键 值 求 哈 硕 值 ， 返 
值 之 间 的 键 什 


回 


B 


范围 。 


=， 对 键 什 
| 拥有 这 
最 新 的 文件 


求 哈 
MB 
开始 ， 


全 希 值 ， 随 
的 节点 。 
通过 


了 


相应 的 数据 文件 来 查找 列 


我 们 首 A euam .因为 你 需要 数据 库 有 些 内 容 来 进行 查询 。 在 本 节 中 ， 我 们 建立 一 个 Java 
项 目 ， 并 学 习 一 个 完整 的 例子 ， 来 看 如 何 插 入 数据 ， 再 将 数据 读 出 。 

先 ， 从 http://cassandra.apache.org 下 载 Cassandra。 二进制 版 本 很 适合 于 起 步 应 用 ， 如 果 你 遇 到 
问题 的 话 ， 可 以 参考 第 2 章 。 
现在 ， 让 我 们 创建 一 个 新 项 目 来 测试 一 下 我 们 的 成 绩 吧 。 这 里 使 用 Eclipse 中 的 Java 项 目 。 首 
先 ， 创 建新 项 目 ， 然 后 将 一 些 JAR 包 添加 到 classpath 之 中 : Log4J 的 JAR 包 用 于 输出 日 志 ( 别 忘 
了 为 你 自己 的 类 设置 相应 的 属性 文件 ) ，Thrift 库 名 为 libthrift-r917130.jar， 其 中 包含 了 
org.apache.thrift 类 ; Cassandra 的 JAR 包 apache-cassandra-x.X.X.jar， 其 中 包含 了 
org.apache.cassandra 包 下 的 各 个 类 。 我 们 还 需要 SLF4J 日 志 工 具 (API 和 实现 的 JAR 包 都 
需 ， 这 是 Cassandra 需 要 的 。 最 后 ， 添 加 JVM 的 参数 ， 来 把 log4j.properties 文 件 加 入 到 
classpath 之 中 : 


-Dlog4j.configuration-file:///home/eben/books/cassandra/10g4j.properties 


*. 
Eu ] 在 Eclipse' 


， 可 以 通过 创建 一 个 新 的 运行 配置 (Run Configuration) 来 添加 
log4j.properties 文 件 。 单 击 参数 (Arguments) 标签 ， 然 后 在 虚拟 机 参数 (VM Argument) 文本 
域 ， 添 加 上 面 的 代码 样 例 里 指定 的 参数 一 一 当然 ， 你 需要 改 成 你 自己 的 属性 文件 的 路 径 。 

我 的 log4j.properties 文 件 如 下 所 示 : 
# output messages into a rolling log file as well as stdout 
log4j.rootLogger-DEBUG, stdout,R 
# stdout 
10g4j.appender.stdout-org.apache.log4j.ConsoleAppender 
l1og4j.appender.stdout.layout-org.apache.log4j.PatternLayout 
log4j.appender.stdout.layout.ConversionPattern-?5p 96d[HH:mm:ss,SSS) %m%n 
# rolling log file 
log4j.appender.R-zorg.apache.log4j.RollingFileAppender 
log4j.appender.file.maxFileSize-5MB 
l1og4j.appender.file.maxBackupIndex-5 
10g4j.appender.R.layout-org.apache.log4j.PatternLayout 
log4j.appender.R.layout.ConversionPattern-?65p [%t] 96d[IS08601) %C %F (line 
96L) %m%n 
# This points to your logs directory 
log4j.appender.R.File-cass-client.log 
为 了 简单 起 见 ， 我 们 使 用 了 默认 keyspace 和 配置 。 现 在 启动 服务 器 ， 并 创建 一 个 如 例 7-1 所 示 的 
类 。 这 个 例子 将 要 建立 一 个 到 Cassandra 的 连接 ， 并 写 入 一 个 新 行 ， 包含 name 和 age 两 个 列 。 


我 们 之 后 会 读 取 这 行 的 一 个 列 值 ， 再 之 后 读 取 整 行 。 


例 7-1: SimpleWriteRead.java 


package com.cassandraguide.rw; 


import java.io.UnsupportedEncodingException; 
import java.util.List; 


import org.apache.cassandra.thrift.Cassandra; 

import org.apache.cassandra.thrift.Clock; 

import org.apache.cassandra.thrift.Column; 

import org.apache.cassandra.thrift.ColumnOrSuperColumn; 
import org.apache.cassandra.thrift.ColumnParent; 

import org.apache.cassandra.thrift.ColumnPath; 

import org.apache.cassandra.thrift.ConsistencyLevel; 
import org.apache.cassandra.thrift.InvalidRequestException; 
import org.apache.cassandra.thrift.NotFoundException; 
import org.apache.cassandra.thrift.SlicePredicate; 
import org.apache.cassandra.thrift.SliceRange; 

import org.apache.cassandra.thrift.TimedOutException; 
import org.apache.cassandra.thrift.UnavailableException; 
import org.apache.log4j.Logger; 

import org.apache.thrift.TException; 

import org.apache.thrift.protocol.TBinaryProtocol; 
import org.apache.thrift.protocol.TProtocol; 

import org.apache.thrift.transport.TFramedTransport; 
import org.apache.thrift.transport.TSocket; 

import org.apache.thrift.transport.TTransport; 


public class SimpleWriteRead { 
private static final Logger LOG - Logger.getLogger(SimpleWriteRead.class); 


// 设 置 一 些 常量 

private static final String UTF8 = "UTF8"; 

private static final String HOST - "localhost"; 

private static final int PORT = 91690; 

private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 


// 不 处 理 这 之 中 的 异常 
public static void main(String[] args) throws UnsupportedEncoding- 
Exception, InvalidRequestException, UnavailableException, 
TimedOutException, TException, NotFoundException { 


TTransport tr = new TSocket(HOST, PORT); 

//9.7 之 中 framed transport 是 默认 设置 

TFramedTransport tf = new TFramedTransport(tr) 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tf.open(); 

client.set keyspace("Keyspace1"); 


String cfName - "Standard1"; 
byte[] userIDKey = "1".getBytes(); // 这 是 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 


// 创 建 名 称 列 的 一 个 表述 
ColumnPath colPathName = new ColumnPath(cfName); 
colPathName.setColumn("name".getBytes(UTF8)); 


ColumnParent cp - new ColumnParent(cfName); 


// 插 入 姓名 列 
LOG.debug("Inserting row for key " + new String(userIDKey)); 
client.insert(userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 


// 插 入 年 龄 列 
client.insert(userIDKey, cp, 
new Column("age".getBytes(UTF8), 
"69".getBytes(), clock), CL) 


LOG.debug("Row insert done."); 


// 只 读 姓名 列 

LOG.debug("Reading Name Column:"); 

Column col - client.get(userIDKey, colPathName, 
CL).getColumn(); 


LOG.debug("Column name: " + new String(col.name, UTF8)); 
LOG.debug("Column value: " + new String(col.value, UTF8)); 


LOG.debug("Column timestamp: " + col.clock.timestamp); 


// 创 建 一 个 片 ， 来 表示 要 读 取 的 列 范围 的 起 始 值 和 终止 值 
// 这 里 使 用 的 是 al1 
SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(new byte[0]); 
sliceRange.setFinish(new byte[0]); 
predicate.setSlice range(sliceRange); 


LOG.debug("Complete Row:"); 
// 读 取 这 行 的 所 有 列 
ColumnParent parent = new ColumnParent(cfName); 
List&ltColumnOrSuperColumn» results - 
client.get slice(userIDKey, 
parent, predicate, CL) 


// 通 过 循环 读 取 各 列 ， 输 出 各 列 的 值 
for (ColumnOrSuperColumn result : results) { 
Column column - result.column; 
LOG.debug(new String(column.name, UTF8) +" : 
* new String(column.value, UTF8)); 


H 
tf.close(); 


LOG.debug("All done."); 


这 个 例子 的 输出 结果 如 下 所 示 : 


DEBUG 14:02:09,572 Inserting row for key 1 

DEBUG 14:02:09,580 Row insert done. 

DEBUG 14:02:09,580 Reading Name Column: 

DEBUG 14:02:09,585 Column name: name 

DEBUG 14:02:09,586 Column value: George Clinton 
DEBUG 14:02:09,586 Column timestamp: 1284325329569 
DEBUG 14:02:09,589 Complete Row: 

DEBUG 14:02:09,594 age : 69 

DEBUG 14:02:09,594 name : George Clinton 

DEBUG 14:02:09,594 All done. 


iic 补充 一 点 ， 这 不 是 Cassandra 所 特有 的 特性 ， 使 用 Java， 你 都 可 以 很 方便 地 利用 Date 对 
As long 型 的 时 间 戳 ， 得 到 更 加 用 户 友好 的 表达 形式 ， 用 法 如 下 : new 
Date(col.timestamp); ° 


现在 ， 我 们 展开 介绍 所 做 的 工作 。 首 先 ， 我 们 连接 到 Cassandra 服 务 器 : 


TTransport tr = new TSocket(HOST, PORT); 
//9.7 中 新 的 默认 方法 是 分 帧 传输 
TFramedTransport tf = new TFramedTransport(tr); 
TProtocol proto - new TBinaryProtocol(tf); 
Cassandra.Client client - new Cassandra.Client(proto); 
tf.open(); 

client.set keyspace("Keyspace1"); 


到 了 Cassandra 的 一 个 名 为 Keyspacel 的 keyspace ° 
然后 ， 我 们 创建 列 族 的 名 称 、 用 做 行 键 值 的 值 ， 以 及 揪 入 时 需要 指定 的 时 钟 : 


这 里 我 们 使 用 了 分 帧 传输 (framed transport) ， 这 是 Cassandra 0.7 中 的 默认 设置 。 上 述 代 码 连接 


String cfName = "Standard1"; 
byte[] userIDKey = "1".getBytes(); // 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 


接 下 来 ， 我 们 使 用 带 有 列 路 径 的 客户 端 对 象 ， 插 入 者 值 : 


ColumnParent cp = new ColumnParent(cfName); 


// 揪 入 name 列 
LOG.debug("Inserting row for key " + new String(userIDKey)); 
client.insert(userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 


插入 操作 需要 行 键 值 和 列 对 象 ， 列 对 象 中 包含 列 名 和 我 们 期 望 赋 给 它 的 值 。 同 时 我 们 还 需要 指 


定 一 个 时 钟 值 ， 


用 以 标记 插入 执行 的 时 间 ， 以 及 指定 的 一 致 性 级 别 。 


之 后 ， 重 复 一 次 类 似 的 工作 ， 在 同一 行 插 入 age 列 ， 值 为 69: 


client.insert(userIDKey, cp, 
new Column("age".getBytes(UTF8), 


"69".getBytes(), clock), CL); 


这 里 ， 我 们 已 经 在 一 行 里 插入 了 两 列 ， 并 且 已 经 准备 好 读 出 来 进行 检验 了 。 


要 验证 插入 的 值 


是 否 被 


FE 确 读 出 ， 可 使 用 客户 端的 get 方法 ， 传 入 要 读 取 的 行 键 值 和 列 路 径 


El 


(如 下 代码 是 name 列 ) ， 并 指定 这 个 操作 需要 的 一 致 性 级 别 : 


ColumnPath colPathName = new ColumnPath(cfName); 

colPathName.setColumn("name".getBytes(UTF8)); 

Column col - client.get(userIDKey, colPathName, 
CL).getColumn(); 


LOG.debug("Column name: " + new String(col.name, UTF8)); 
LOG.debug("Column value: " + new String(col.value, UTF8)); 
LOG.debug("Column timestamp: " + col.clock.timestamp); 


每 列 的 值 都 有 其 自己 的 时 间 戳 (包装 为 一 个 时 钟 对 象 ) ， 因 为 列 〈 而 非 行 ) 是 一 个 原子 级 的 阐 


[un 


7L * 如 果 你 使 用 
能 感到 有 些 不 适 
p 


A| 7j Cassandra 


关系 型 数据 库 的 时 候 ， 习 惯用 时 间 戳 列 来 记录 最 近 被 更 新 的 时 间 ， 对 这 一 点 可 
理应 。 在 Cassandra 中 ， 没 有 标记 行 被 最 后 更 新 时 间 的 东西 ， 更 新 总 是 以 列 为 粒 


ze 


为 列 名 和 


返回 一 个 字 市 数组 ， 我 们 使 用 这 个 字 市 数组 创建 一 个 字符 串 对 象 ， 


值 
这 样 束 可 以 在 应 用 中 使 用 它 ] me 志 操 作 ) 。 时 钟 对 象 存储 为 一 个 长 整 型 (代表 


从 Unix 纪 元 开始 时 计算 的 毫秒 数 ) ， 如 果 需 要 ， 我 们 可 以 使 用 java,util1.Date 对 象 来 包装 


E o 


使 用 get 方法 ， 


指定 列 路 径 和 其 他 参数 ， 可 以 读 出 一 个 列 的 值 。 而 现在 ， 我 们 将 取出 一 行 之 


中 的 一 个 列 < 区 间 ” ( 称 为 切片 ) 。 这 里 ， 我 们 使 用 切片 谓词 : 


SlicePredicate predicate = new SlicePredicate(); 
SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(new byte[0]); 
sliceRange.setFinish(new byte[0]); 
predicate.setSlice range(sliceRange); 


切片 谓词 (slice predicate) 是 一 个 容器 对 象 ， 使 用 这 个 对 象 ， 可 以 通过 指定 起 始点 和 终止 点 六 


^H 


指定 我 们 想 读 的 列 的 范围 。 这 里 ， 指 定 开 始点 和 终止 点 都 是 new byte[9] ， 表 示 硕 望 读 取 所 


LEE 


现在 ， 谓 词 已 经 设置 好 了 ， 可 以 运行 这 个 区 间 切 片 查询 ， 读 取 一 行 中 的 所 有 列 ， 然 后 就 可 以 用 


循环 来 逐个 处 更 


ET: 


ColumnParent parent = new ColumnParent(cfName); 


List results = 


client.get slice(userIDKey, parent, predicate, CL) 


如 上 ， 这 个 get_slice 查询 使 用 了 我 们 


2 


| 建 的 谓词 ， 同 时 还 有 两 个 新 参数 : 


ColumnOrSuperColumn 类 和 一 个 column parent。ColumnOrSuperColumn 类 正如 它 的 名 字 


所 指 上 


SE A 


表 了 Thrift 反 回 的 一 个 列 或 一 个 超级 列 。 
级 类 打包 在 一 个 对 象 中 (具体 是 los F 查 询 ) 。 如 果 返 回 的 是 一 个 列 ， 客 


fü; 


column parent 是 到 一 组 列 的 上 层 〈 列 族 或 超级 列 ) I NAR 


组 列 ， 


j 如 果 返 回 的 是 超级 列 ， 客 户 端 就 会 从 超级 列 中 再 读 取 一 列 。 


Thrift 不 支持 继承 ， 所 以 这 个 类 用 于 将 类 和 超 


之 后 关闭 连接 : 


户 端 就 只 读 取 其 


恩 们 要 通过 get_s1ice 接收 一 


需要 指定 容纳 查找 的 这 组 列 的 列 族 。 现 在 ， 可 以 针对 这 行 来 循环 处 理 这 些 列 了 ， 
出 每 列 的 三 个 属性 ， 


打印 输 


for (ColumnOrSuperCo]l 


umn result : results) { 


Column column - result.column; 


LOG.debug(new String(column.name, UTF8) + " : " 
* new String(column.value, UTF8)); 


H 
tf.close(); 


你 可 以 使 用 insert 


的 列 值 ， 执行 一 次 insert 就 可 以 了 。 
你 还 可 以 一 次 插入 多 


操作 来 添加 值 或 是 覆盖 已 有 值 。 要 更 新 一 个 值 ， 


个 值 ， 这 将 在 7.13 节 中 介绍 。 


7.7 使 用 简单 的 get 


使 用 get 操作 可 以 依据 列 路 径 取出 列 或 超级 列 : 


只 要 对 同样 的 键 值 


ColumnOrSuperColumn get(byte[] key, ColumnPath column path, 
ConsistencyLevel consistency level) 


例 7-2 演 示 了 如 何 操作 。 


例 7-2 : 


// 这 里 省 略 了 imports 


使 用 get 操作 


package com.cassandraguide.rw; 


public class GetExample { 
private static final Logger LOG - Logger.getLogger(GetExample.class); 
private static final String UTF8 - "UTF8"; 
private static final String HOST - "localhost"; 
private static final int PORT = 91690; 
private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 


public static void main(String[] args) throws UnsupportedEncodingException, 


InvalidRequestException, UnavailableException, TimedOutException, 


TException, 


TTransport tr - 


NotFoundException 1 


new TSocket(HOST, PORT); 


//9.7 中 新 的 默认 方法 是 分 帧 传输 


TFramedTransport tf = new TFramedTransport(tr); 


TProtocol proto 


Cassandra.Client 
tf.open(); 


- new TBinaryProtocol(tf); 


client - new Cassandra.Client(proto); 


client.set keyspace("Keyspace1"); 


String cfName - 
byte[] userIDKey 


Clock clock - ne 


// 创 建 name 列 的 描述 
ColumnParent cp 


"Standard1"; 
= "q",.getBytes(); // 行 键 值 


w Clock(System.currentTimeMillis()); 


- new ColumnParent(cfName); 


// 插 入 name 列 
LOG.debug("Inserting row for key " + new String(userIDKey)); 
client.insert(userIDKey, cp, 
new Column("name".getBytes(UTF8), 
"George Clinton".getBytes(), clock), CL); 


LOG.debug("Row insert done."); 
/** 进行 get 操 作 */ 


LOG.debug("Get result:"); 

// 读 取 这 行 的 所 有 列 

ColumnPath path = new ColumnPath(); 
path.column family - cfName; 
path.column - "name".getBytes(); 


ColumnOrSuperColumn cosc - client.get(userIDKey, path, CL) 

Column column - cosc.column; 

LOG.debug(new String(column.name, UTF8) +" : 
* new String(column.value, UTF8)); 

// get 完 成 


tr.close(); 


LOG.debug("All done."); 


这 里 ， 我 们 先进 行 了 一 次 插入 ， 以 便 可 以 取出 数据 。 我 们 创建 一 个 client 对 象 ， 并 调用 了 这 个 对 
象 的 get 方法 ， 这 个 方法 有 三 个 参数 : 行 键 值 、 列 路 径 、 一 致 性 级 别 。 其 中 ， 列 路 径 设置 了 要 
查找 的 列 名 称 。 注 意 ， 列 名 称 和 值 都 是 二 进 制 的 《对 于 Java 客 户 端 来 说 ， 是 字数 组 ) ， 所 以 
我 们 在 查询 时 必须 将 字符 串 列 名 转化 成 字 节 数组 。 之 后 得 到 的 列 的 值 同样 也 是 字 市 数组 ， 为 了 
处 理 结 采 ， 我 们 还 要 再 将 它 转 化 成 字符 串 。 


在 本 例 中 ， 我 们 插入 了 name 和 age 两 个 列 ， 但 因为 列 路 人 径 只 指定 了 一 个 想 查询 的 列 ， 所 以 我 
们 只 得 到 了 age 2 输出 结果 如 所 示 : 


DEBUG 14:36:42,265 Inserting row for key 1 
DEBUG 14:36:42,273 Row insert done. 

DEBUG 14:36:42,273 Get result: 

DEBUG 14:36:42,282 name : George Clinton 
DEBUG 14:36:42,282 All done. 


7.8 数据 准备 


这 里 ， 我 们 使 用 命令 行 接口 来 创建 一 些 有 不 同 列 的 键 值 ， 以 便 后 面 查询 : 


[defaultQKeyspacei] set Standardi['k1']['a']-'1' 


Value inserted. 
[defaultQKeyspacei] set Standardi1['k1']['b']-'2' 


Value inserted. 
[defaultQKeyspacei] set Standardi1['k1']['c']-'3' 


Value inserted. 
[defaultQKeyspacei] set Standardi1['k2']['a']z'2.1' 


Value inserted. 
[defaultQKeyspacei] set Standardi1['k2']['b']z'2.2' 


现在 ， 我 们 有 两 行 数 据 ， 第 一 行 有 三 列 ， 第 二 行 有 两 列 。 


7.9 切片 谓词 


"m 


切片 谓词 (slice predicate) 可 以 用 于 读 和 写 操作 


之 内 的 所 有 列 ， 那 么 就 可 以 使 用 切片 区 间 来 指定 这 个 范围 。 


ky 简单 起 见 ， 我 使 用 了 包含 的 例子 。 但 是 ， 一 行 之 中 有 很 多 很 多 列 对 Cassandra 来 说 是 家 


常 便 饭 ， 所 以 别 被 这 些 例子 误导 。Cassandra 可 以 存储 海量 的 数据 ， 在 Cassandra 0.727 H 


， 是 用 于 指定 一 组 列 的 限定 词 。 你 可 以 使 用 F 
种 方式 来 指定 切片 谓词 : 一 组 列 名 或 是 一 个 切片 区 间 。 如 有 果 你 知道 所 要 取出 的 几 个 列 的 名 称 
那么 可 以 明确 地 指定 名 称 ; 而 如 果 不 知道 它们 的 确切 名 称 ， 或 者 由 于 其 他 需要 得 取出 一 个 范围 


ma 


, 


行 可 以 容纳 20 亿 列 之 多 。 
要 使 用 切片 谓词 ， 首 先 要 创建 包含 你 想 获取 的 列 名 的 谓词 对 象 ， 然 后 将 它 传 给 读 操作 。 
7.9.1 ”使 用 get_slice 读 取 特 定 列 名 
如 果 你 希望 取出 一 行 中 名 叫 “a* 和 “b” 的 列 ， 可 以 使 


T 
i 


指定 列 名 的 谓词 。 


值 来 ， 返 回 列 或 者 超级 列 。get_slice 操作 的 声明 形式 如 下 : 


pia 
HP, BE 


f&Hget slice 操作 ， 可 以 取出 列 族 或 是 超级 列 中 的 一 组 列 。 它 会 根据 列 名 或 列 名 的 区 间 取 


Bi 


List get_slice(byte[] key, 
ColumnParent column parent, SlicePredicate predicate, ConsistencyLevel cl) 


使 用 方法 如 例 7-3 所 示 。 


例 7-3: SlicePredicate.java 


package com.cassandraguide.rw; 
// imports 已 省 略 
public class SlicePredicateExample { 


public static void main(String[] args) throws Exception { 
Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


SlicePredicate predicate - new SlicePredicate(); 
List&ltbyte[]» colNames = new ArrayList&ltbyte[]»(); 
colNames.add("a".getBytes()); 


colNames.add("b".getBytes()); 


predicate.column names - colNames; 
ColumnParent parent - new ColumnParent("Standard1"); 


byte[] key = "ki1".getBytes(); 
List results - 
client.get slice(key, parent, predicate, ConsistencyLevel.ONE); 
for (ColumnOrSuperColumn cosc : results) ( 
Column c - cosc.column; 
System.out.println(new String(c.name, "UTF-8") +": " 
* new String(c.value, "UTF-8")); 


} 


conn.close(); 


System.out.println("All done."); 


在 这 个 例子 中 ， 只 有 指定 的 列 会 被 了 到 出， 其 他 列 则 被 忽略 。 这 个 查询 返回 一 个 

ColumnorSuperColumn 对 象 的 列表 。 因 为 我 们 知道 所 查询 的 是 普通 的 列 族 ， 所 以 直接 从 底层 
RPC 机 制 (Thrift) 返回 的 ColumnOrSuperColumn 数据 结构 中 取出 列 的 值 ， 最 后 在 一 个 循环 
! 读 取 这 些 列 的 名 称 和 值 


列子 的 输出 如 下 所 示 : 


a.i 
b:2 
All done. 


7.9.2. ”通过 切片 区 间 获 取 一 组 列 


有 了 时 你 不 希望 指定 所 要 取出 的 每 个 列 ， 一 个 可 能 的 原因 是 要 取出 很 多 列 ， 也 有 可 能 是 因为 你 不 
知道 所 有 这 些 列 的 名 称 。 


要 读 取 一 行 中 一 个 指定 区 间 的 列 ， 司 以 指定 开 台 和 结束 的 列 ，Cassandra 就 会 给 你 束 
列 ， 包 括 两 端的 列 ， 区 间 范 围 的 确定 是 根据 列 族 的 比较 器 排序 而 得 到 的 。 B 
之 后 创建 区 间 ， 再 把 谓词 传递 给 读 操作 之 前 设置 区 间 。 这 是 一 个 例子 : 
SlicePredicate predicate = new SlicePredicate(); 


SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart("age".getBytes()); 


EE 


个 区 间 内 的 
先 创建 切片 谓词 ， 


Y 


sliceRange.setFinish("name".getBytes()); 
predicate.setSlice range(sliceRange); 


在 执行 get_ slice 操作 时 ， 查询 会 返回 这 两 个 指定 的 列 ， 以 及 所 有 通过 比较 器 排序 比较 落 在 两 
个 列 之 间 的 列 (可 能 依照 文子 、 数字 或 其 他 什么 东西 来 排序 ) 。 比 如 ， 如 果 这 行 也 有 
个 “email” 列 ， A 被 返回 。 


你 必须 根据 比较 器 来 给 出 列 名 ， 注 意 开始 列 和 结束 列 的 顺序 。 比 如 ， 如 果 以 name 列 开始 、 以 
age 列 结束 ， 束 会 抛 出 一 个 异常 : 


InvalidRequestException(why:range finish must come after start in the order 
of traversal) 


Ael, “返回 一 列 * 并 非 意味 着 像 SQL 一 样 得 到 列 的 值 ， 而 是 得 到 完整 的 列 数 据 结构 ， 包 
括 名称 、 JARTEN - 


计数 
可 以 使 用 Slice Range 结构 的 计数 (count) 属性 来 限制 切片 区 间 返 回 行 的 数量 。 假 设 我 们 有 
一 个 几 百 列 的 行 ， 可 以 指定 一 个 包含 很 多 列 的 区 间 ， 但 限制 只 返回 结果 的 前 10 列 ， 如 下 : 


iceRange sliceRange = new SliceRange(); 
iceRange.setStart("a".getBytes()) 
iceRange.setFinish("d".getBytes()); 
iceRange.count - 10; 


再 强调 一 次 ,“ 第 一 ” 列 要 依照 列 族 的 比较 器 指定 的 顺序 而 定 。 
逆序 


你 还 可 以 通过 设置 切片 区 间 的 reversed=true 属性 来 取出 呈现 逆序 的 列 。 如 果 有 age ^ 
email 和 name 三 个 列 ， 那 么 设置 reversed 为 true ， 得 到 的 列 的 顺序 就 是 name `email 和 


age 。 


puo mu 


L 


7.9.3 ”取出 一 行 中 的 所 有 列 


要 读 出 一 行 中 的 所 有 列 ， 也 需要 使 
eR 束 可 以 了 ， 像 这 样 : 
SlicePredicate predicate = new SlicePredicate( 


SliceRange sliceRange - new SliceRange(); 
sliceRange.setStart(new byte[0]); 


3 有 切片 区 间 的 谓词 ， 但 只 要 给 区 间 的 起 始 和 结 


e 
N 
T 
> 


E 


sliceRange.setFinish(new byte[0]); 


predicate.setSlice_range(sliceRange); 


然后 ， 就 可 以 把 这 个 增加 的 谓词 对 象 和 其 他 必要 参数 《如 一 致 性 级 别 之 类 的 ) 一 起 传 给 
iM E 操作 了 。 


D 


7.10 get_range_slices 


类 似 于 使 用 区 间 来 访问 一 组 列 ， 我 们 也 可 以 访问 一 个 键 值 或 令 牌 区 间 。 可 以 把 一 个 KeyRange 
对 象 传 给 一 个 get_range_slices 操作 ， 来 定义 一 组 要 访问 的 键 值 。 
这 里 的 一 个 不 同 是 ， 作 为 get_range_slices 的 参数 ，KeyRange 数据 结构 可 以 指定 键 值 ， 
也 可 以 指定 令 牌 。 键 值 区 间 包 含 开 始点 ， 而 令 牌 不 包括 开始 点 。 因 为 令 牌 是 环 状 分 布 的 ， 所 以 
结束 令 牌 可 以 小 于 起 始 令 牌 。 


API 中 定义 了 get_range_slices 操作 ， 其 操作 方式 大 致 如 下 : 


Fk 


List&ltKeySlice> results = client.get range slices(parent, predicate, keyRange, 
ConsistencyLevel); 


例 7-4 给 出 了 一 个 完整 的 使 用 区 间 切 片 的 例子 。 


例 7-4: GetRangeSliceExample.java 
package com.cassandraguide.rw; 


//imports 已 省 略 


public class GetRangeSliceExample { 


public static void main(String[] args) throws Exception { 
Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Getting Range Slices."); 


SlicePredicate predicate - new SlicePredicate(); 
List&ltbyte[]» colNames = new ArrayList&ltbyte[]»(); 
colNames.add("a".getBytes()); 
colNames.add("b".getBytes()); 

predicate.column names - colNames; 


ColumnParent parent - new ColumnParent("Standard1"); 
KeyRange keyRange - new KeyRange(); 


keyRange.start key = "ki1".getBytes(); 
keyRange.end key - "k2".getBytes(); 


// 返 回 一 组 键 值 切片 
List&ltKeySlice» results = 
client.get range slices(parent, predicate, keyRange, 
ConsistencyLevel.ONE); 


for (KeySlice keySlice : results) ( 
List&ltColumnOrSuperColumn» cosc - keySlice.getColumns(); 


System.out.println("Current row: " + 
new String(keySlice.getKey())); 


for (int i = 0; i &lt cosc.size(); i++) { 
Column c - cosc.get(i).getColumn(); 
System.out.println(new String(c.name, "UTF-8") + " 
* new String(c.value, "UTF-8")); 
J 
H 


conn.close(); 


System.out.println("All done."); 


这 个 程序 假设 你 已 经 在 一 些 行 键 值 里 有 一 些 数据 了 ， 见 7.8 节 。 
程序 的 输出 如 下 : 


Getting Range Slices. 
Current row: k1 


b:2 
Current row: k2 
a: 2.1 


b:2.2 


虽然 名 称 中 包含 EM (slice) 和 “区 间 ” (range) 两 个 词 ， 起 初 看 起 来 可 能 有 些 反常 ， 不 过 
实际 上 这 并 不 是 问题 。 只 要 记 住 切 片 指 一 组 列 ， 而 区 间 指 一 组 键 值 即 可 。 在 这 个 例子 中 ， 我 们 
根据 多 个 行 键 值 取出 多 个 列 。 


7.11 multiget_slice 


使 用 get_slice ， 可 以 根据 一 个 指定 的 行 键 值得 到 一 组 列 名 ， 而 使 用 multiget_s1ice 则 可 
以 根据 组 行 键 值 来 取出 一 组 列 ， 这 里 的 行 键 值 可 以 通过 一 个 column parent 和 一 个 谓词 来 选 
择 。 也 就 是 说 ， 可 以 给 定 不 止 一 个 行 键 值 ， 取 出 每 个 行 键 值 对 应 的 行 里 的 一 些 列 。 所 以 ， 

multget slice 的 意思 就 是 对 应 多 行 的 多 列 。 


法 称 为 multiget ， 不 过 现在 已 经 推荐 用 multiget_slice 来 代替 了 。 
multiget slice 的 操作 方法 是 这 样 的 : 


Map&ltbyte[],List&ltColumnOrSuperColumn»» results = 
client.multiget slice(rowKeys, parent, predicate, CL); 


和 之 前 一 样 ， 要 指定 parent 和 谓词 ， 这 里 还 要 给 出 一 组 希望 查询 的 行 键 值 。 这 里 的 行 键 值 是 一 个 
字 节 数组 列表 ， 每 个 字 节 数 组 对 应 于 一 个 键 值 的 名 字 。 


返回 的 结果 类 型 是 Map&ltbyte[],List&ltcoLlumnorSuperCcolumn>> ， 看 起 来 是 个 复杂 

的 数据 结构 ， 不 过 实际 上 非常 简单 。Map 是 一 个 键 / 值 对 集合 ， 其 中 作为 键 值 的 字 节 数列 就 是 行 
键 值 ， 也 就 是 说 ， 在 我 们 的 例子 里 有 两 个 键 值 ， 就 是 每 个 对 应 一 个 行 键 值 。 返 回 的 映射 里 的 每 

个 byte[] 键 值 指 向 一 个 列表 ， 列 表 包 含 了 一 个 或 多 个 CoLlumnorSuperCcolumn 对 象 。 、 
个 结构 是 因为 Thrift 不 支持 继承 。 你 必须 知道 列 族 的 类 型 是 Standard 还 是 Super ， 这 样 才能 

中 得 到 正确 的 数据 对 象 。 在 我 们 的 例子 中 ， 你 可 以 从 ColumnorSuperCcolumn 中 取出 


column&ltsuper column 是 空 的 ) , 


um 
E 


例 7-5: 


! 得 到 时 间 戳 。 
吉 用 multiget_slice 的 例子 位 于 例 7-5 之 中 。 


MultigetSliceExample.java 


jcolumn 对 和 象 读 取 名 


package 


com.cassandraguide.rw; 


//imports 已 省 略 


public class MultigetSliceExample { 
private static final ConsistencyLevel CL - ConsistencyLevel.ONE; 
private static final String columnFamily = "Standard1"; 


public static void main(String[] args) throws 


UnsupportedEncodingException, InvalidRequestException, 
UnavailableException, TimedOutException, 
TException, NotFoundException { 


Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Running Multiget Slice."); 


SlicePredicate predicate - new SlicePredicate(); 
List&ltbyte[]» colNames = new ArrayList&ltbyte[]»(); 
colNames.add("a".getBytes()); 
colNames.add("c".getBytes()); 

predicate.column names - colNames; 


ColumnParent parent - new ColumnParent(columnFamily); 


// 这 里 ， 不 是 指定 一 个 行 键 值 ， 而 是 指定 一 个 列表 
List&ltbyte[]» rowKeys = new ArrayList&ltbyte[]»(); 
rowKeys.add("ki1".getBytes()); 
rowKeys.add("k2".getBytes()); 


// 返 回 的 结果 页 不 是 一 个 简单 的 列表 ， 而 是 一 个 映射 ， 其 中 的 键 值 是 行 键 什 

// 值 是 每 行 对 应 的 列 数组 

Map&ltbyte[],List&ltColumnOrSuperColumn»» results = 
client.multiget slice(rowKeys, parent, predicate, CL); 


for (byte[] key : results.keySet()) { 
List&ltColumnOrSuperColumn» row = results.get(key); 


System.out.println("Row " + new String(key) + " --» "); 
for (ColumnOrSuperColumn cosc : row) { 
Column c - cosc.column; 


System.out.println(new String(c.name, "UTF-8") +": " 
* new String(c.value, "UTF-8")); 


} 
conn.close(); 


System.out.println("All done."); 


数据 库 中 已 经 有 了 一 些 键 值 了 ， 我 尽量 保持 例子 的 简短 ， 以 使 数据 的 结构 形象 化 。 


在 a 和 c 之 间 的 列 ， 不 过 只 对 a Me 两 列 有 兴趣 ， 所 以 要 指定 
column names 限制 结果 。 我 们 还 希望 指定 不 止 一 行 的 内 容 


示 要 访问 的 行 键 值 。 
上 述 代码 的 运行 结果 如 下 所 示 ; 


了 一 个 切片; 


我 们 有 和 
ibd 


所 以 要 使 


gr 


X 


FÐ 


IRA 


7 
c 
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Running Multiget Slice. 
Row k2 --» 

a: 2.1 

Row k1 --» 


a:1 


c3 
All done. 


可 以 看 出 ， 键 值 k2? 对 应 的 行 没有 “c" 列 ， 所 以 Cassandra 不 会 返 


行 “k1” 有 “b” 列 ， 但 我 们 的 切片 中 并 没有 这 样 查询 ， 


4 


所 以 同样 不 会 得 


ET. 因为 我 们 使 用 了 Thrift 作 为 Cassandra 的 底 
端 重新 排序 。 这 是 因 


RWE ° 


7.12 ”删除 


层 通 信 RPC 机 制 ， 返 
为 Thrift 不 能 保持 


在 Cassandra 中 删除 数据 和 关系 型 数据 库 中 有 很 大 不 同 


e 指定 要 删除 的 一 行 或 多 行 就 可 以 了 。 


à 


Bem Medi 


而 此 时 有 个 节点 下 线 了 ， 它 将 无 法 收 到 


删除 操作 。 


， 其 他 收 到 删除 操作 的 节点 丢失 了 数据 


JAN oa F o 


墓碑 是 一 个 删除 操作 发 起 的 特殊 标记 ， 作 为 一 个 占 
TENERE, 事后 墓碑 可 以 在 它 再 次 在 线 的 时 
= | 
D 


的 空间 不 会 在 删除 之 后 就 立刻 腾空 。 每 个 节点 
达到 了 gc_grace_ 
垃圾 


回收 ， 释 放 占 用 的 磁 


AR] o 


F 始 修复 其 他 节点 。 因 此 ，Cassandra 需 要 更 为 复杂 的 机 


seconds 设置 的 时 间 (默认 是 10 天 ) 


(因为 它 自己 错 


位 符 用 


候 传播 给 它 


LIN ro 


PUT BB 
过 了 删除 操作 ， 所 以 数据 还 
制 来 支持 删除 。 


来 覆盖 删除 的 值 


。 在 关系 型 数据 库 中 
但 在 Cassandra 之 
个 简单 的 原因 : Cassandra 的 持久 化 、 最 终 一 致 性 


中 ， 删 除 操作 
EI 4f 式 的 设计 。 如 采 Cassandra 直 


回 这 列 的 内 容 。 而 
到 。 


反 回 的 结果 将 是 无 序 的 ， 所 
顺序 。multiget 实 际 上 是 多 个 get 请 求 的 


只 要 简单 地 使 用 
并 不 会 立刻 删除 


都 会 跟踪 其 上 所 有 


Ey 记 住 ，SSTable 是 不 可 修改 的 ， 所 以 数据 并 没 


EN 


。 如 果 某 个 
。 这 个 设计 的 直接 效果 是 ， 数 据 
LE 的 年 龄 。 一 旦 它们 的 
， 就 会 运行 一 次 压 紧 操作 ， 将 幕 


Er Ex, 


它 会 


这 个 机 制 称 


副本 没 


有 在 SSTable 中 被 删除 。 在 压 紧 操作 中 ， 墓 
碑 也 会 被 放 在 一 起 ， 合 并 后 的 数据 是 排 好 序 的 ， 并 日 会 为 新 的 合并 的 数据 创建 一 个 索引 ， 新 
合并 的 、 有 序 的 、 有 索引 的 数据 会 被 写 入 到 一 个 单独 的 新 文件 中 。 
这 里 的 假设 是 ， 压 紧 之 前 留 下 的 10 天 时 间 足 够 让 一 个 坏 节 点 修复 上 线 了 。 如 果 你 乐意 ， 可 以 把 
这 个 垃圾 回收 时 间 降 的 更 低 ， 来 让 磁盘 空间 更 快 被 释放 。 
我 们 来 运行 一 个 例子 ， 删 除 之 前 插入 的 数据 。 注 意 ，Cassandra 中 没有 “delete” 操 作 ， 而 是 
remove ， 而 且 它 也 不 是 真 的 “ 移 除 ” (remove) 而 只 是 一 个 写 (墓碑 标记 ) 操作 。 因 为 remove 
操作 实际 是 墓碑 的 写 操 作 ， 所 以 你 还 是 要 为 这 个 操作 指定 时 间 惟 ， 因为 如 果 有 多 个 客 户 端 写 入 
数据 ， 时 间 惟 更 新 的 操作 会 胜出 这 些 写 操 作 可 能 有 墓碑 ， 也 可 能 有 新 的 值 。Cassandra 并 不 
区 分 这 些 不 同 的 写 操 作 ， 只 要 时 间 惟 更 新 就 能 胜出 。 
如 下 是 一 个 简单 的 删除 操作 : 


Connector conn = new Connector(); 
Cassandra.Client client = conn.connect(); 


String columnFamily = "Standardi"; 
byte[] key = "k2".getBytes(); // 行 键 值 


Clock clock = new Clock(System.currentTimeMillis()); 
ColumnPath colPath - new ColumnPath(); 


colPath.column family - columnFamily; 
colPath.column = "b".getBytes(); 


client.remove(key, colPath, clock, ConsistencyLevel.ALL); 


System.out.println("Remove done."); 


conn.close(); 


713 ”批量 变更 


第 4 章 里 已 经 介绍 了 很 多 用 于 批量 插入 的 批量 变更 (batch mutate) 操作 ， 所 以 这 里 就 不 再 重复 例 
子 了 ， 而 只 是 概述 一 下 。 


要 一 次 进行 大 量 的 插入 或 更 新 操作 ， 可 以 使 用 batch_mutate 方法 ， 而 不 是 insert 方法 。 和 
关系 型 世界 中 的 批量 更 新 类 似 ，batch_mutate 操作 人 允许 在 一 次 调用 中 ， 对 成 组 的 很 多 键 值 进 
行 操 作 ， 以 此 可 以 避免 多 次 操作 带 来 的 网 络 开销 。 如 果 batch_mutate 在 一 系列 的 更 新 操作 中 
的 某 一 个 发 生 了 失败 ， 不 会 被 退回 ， 所 以 任何 已 经 完成 的 更 新 操作 都 会 继续 生效 。 对 于 这 种 错 
误 ， 客 户 端 可 以 重 试 batch_mutate 操作 。 


E 


n? 


曾经 有 一 个 称 为 batch_insert 的 操作 ， 不 过 已 经 不 推荐 使 用 了 。 
7.13.1 批量 删除 
第 4 章 的 应 用 中 并 没有 包含 任何 删除 操作 ， 所 以 这 里 多 介绍 一 些 。 


使 用 remove 操作 可 以 删除 一 列 ， 而 使 用 batch_mutate 和 Deletion 结构 可 以 一 次 进行 一 组 
复杂 的 删除 操作 。 


你 可 以 创建 一 个 列 名 的 列表 来 指示 要 删除 的 列 ， 之 后 将 它们 间接 地 传 给 batch_mutate 。 这 里 
说 是 “间接 ”的 ， 是 因为 你 需要 创建 多 个 数据 结构 来 运行 删除 d 


首先 ， 创 建 一 个 要 删除 的 列 名 的 列表 。 将 它 传 给 SlicePredicate ， 再 将 Slice- 
Predicate 传 给 Deletion 对 象 ， 然 后 将 它 传 给 Mutation 对 象 ， 最 后 再 将 Mutation 对 象 
传 给 batch_mutate 。 


| 


Ei 


下 面 的 代码 简单 演示 了 如 何 进行 批量 删除 操作 。 首 先 创 建 SL1icePredicate 对 象 装载 要 删除 的 
列 名 。 这 里 我 们 只 要 删除 “b” 列 。 然 后 创建 Dbeleteion 对 象 ， 里 面 设置 这 个 谓词 ， 最 后 创建 
Mutation 对 象 ， 在 其 中 设置 这 个 Deletion 。 


一 旦 设置 好 了 Deletion 对 象 ， 你 就 可 以 创建 变更 映射 。 这 个 映射 使 用 字 节 数组 键 值 指向 所 要 
进行 删除 的 行 。 你 可 以 使 和 有 不 人 Futaton A/S HIDIEGDI ERUNT i 
个 映射 的 值 是 一 个 内 层 的 映射 ， 这 个 映射 本 身 使 用 要 变更 的 列 族 名 称 字符 串 作 为 键 值 。 而 它 的 
值 则 指向 一 个 变更 抠 作 列表 ， 是 要 进行 的 操作 。 


String columnFamily = "Standardi"; 
byte[] key = "k2".getBytes(); // 这 是 行 键 值 


Sb 


Clock clock = new Clock(System.currentTimeMillis()); 


SlicePredicate delPred - new SlicePredicate(); 
List&ltbyte[]» delCols = new ArrayList&ltbyte[]»(); 


// 这 里 我 们 指定 列 "b" ， 其 实 还 可 以 指定 更 多 
delCols.add("b".getBytes()); 
delPred.column names - delCols; 


Deletion deletion - new Deletion(); 
deletion.predicate - delPred; 
deletion.clock - clock; 


Mutation mutation 
mutation.deletion 


- new Mutation(); 

- deletion; 

Map&lt byte[], Map&lt String, List&lt Mutation»»» mutationMap = 
new HashMap&lt byte[], Map&lt String, List&lt Mutation»»»(); 


List&lt Mutation» mutationList = new ArrayList&lt Mutation»(); 
mutationList.add(mutation); 


Map&lt String, List&lt Mutation»» m = new HashMap&lt String, List&lt Mutation»»(); 
m.put(columnFamily, mutationList); 


// 就 改动 这 个 行 键 值 ， 虽 然 我 们 实际 可 以 改动 更 多 
mutationMap.put(key, m); 
client.batch mutate(mutationMap, ConsistencyLevel.ALL) 


还 有 一 种 方法 可 以 用 Deletion 结构 来 指定 要 删除 的 项 目 : 使 用 Sl1iceRange 替代 列 的 List 
， 这 样 就 可 以 删除 一 个 列 的 区 间 ， 而 不 需要 直接 地 列 出 列 的 名 字 了 - 


743.22 KK 
你 可 能 听 人 提 过 Cassandra 中 的 “区 间 野 影 ” (range ghost) 。 这 是 说 即使 你 删除 了 一 个 给 定 行 的 所 


有 列 ， 仍 然 可 以 在 区 间 切 片 中 返回 这 个 行 ， 但 列 数据 却 是 空 的 。 这 没有 什么 问题 ， 只 是 在 客户 
端 欠 代 返 回 的 数据 时 要 注意 。 


7.14 ”编程 定义 keyspace 和 列 族 


现在 ， 你 也 可 以 通过 API 来 创建 keyspace 和 列 族 了 。 例 7-6 示 意 了 如 何 进 行 这 个 操作 。 


|I 


n 


1517-6: DefineKeyspaceExample.java 


package com.cassandraguide.rw; 


//imports 已 省 略 


/* * 
* 演示 如 何 通过 程序 定义 Keyspace 和 列 族 
*/ 


public class DefineKeyspaceExample { 


public static void main(String[] args) throws 
UnsupportedEncodingException, InvalidRequestException, 
UnavailableException, TimedOutException, 
TException, NotFoundException, InterruptedException { 


Connector conn - new Connector(); 
Cassandra.Client client - conn.connect(); 


System.out.println("Defining new keyspace."); 


KsDef ksdef - new KsDef(); 

ksdef.name = "ProgkKS"; 

ksdef.replication factor - 1; 

ksdef.strategy class - 
"org.apache.cassandra.locator.RackUnawareStrategy"; 


List&ltCfDef2 cfdefs = new ArrayList&ltCfDef2(); 
CfDef cfdefi = new CfDef(); 

cfdefi.name = "ProgCF1"; 

cfdefi.keyspace = ksdef.name; 
cfdefs.add(cfdef1); 


ksdef.cf defs - cfdefs; 
client.system add keyspace(ksdef); 


System.out.println("Defining new cf."); 
CfDef cfdef2 - new CfDef(); 
cfdef2.keyspace - ksdef.name; 
cfdef2.column type - "Standard"; 
cfdef2.name - "ProgCF"; 


client.system add column family(cfdef2); 


conn.close(); 


System.out.println("All done."); 


7. 


本 章 中 ， 我 们 看 到 了 如 何 使 
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小 结 


第 8 章 ”客户 端 


我 们 过 去 使 用 驱 刀 
共 了 一 个 使 
法 。 要 和 数据 库 交互 ， 你 需要 一 
MySQL, 


现 


的 API， 提 


Cassandra f ft 85) E 


来 连接 关系 型 数据 库 。 比 如 ， 在 Java 里 ， 
jStatements ^ PreparedStatements ^ 


一 个 所 使 用 数据 库 的 驱动 。 比 如 Oradle、 


富 API 来 进行 


JDBC 是 抽象 ] 
ResultSets 等 来 存 取 数 据 的 


种 数据 读 写 操作 。 


SQL 


这 些 


些 数 据 


k) FERAS HZ 


提 
Sc 
的 


使 
做 


在 


多 种 编程 语 


Cassandra 有 一 些 不 同 ， 
Cassandra 的 Python 驱 动 ， 根 本 就 没有 这 种 东西 。 
象 出 来 有 所 不 同 ，Cassandra 使 用 了 一 
成 层 。 不 过 ， 
Ruby ` C£ ^ Python ^ Perl ^ PHP ^ C++ 
开发 而 写 的 。 


言 与 多 种 不 


供 的 客户 端 4 


ala ^ 


这 些 客户 


RA 全 
T IR 会 1 


j det 


区 对 于 应 用 


司 数据 库 进 行 交 互 。 


发 者 


H H 


ERAIKI < wA 


你 决定 使 | 


还 是 有 D 


端的 好 处 是 ， 可 以 更 方便 地 将 它们 嵌入 E 
提供 比 基 本 Thrift 接 口 更 丰富 的 功能 


FE 


我 们 会 看 到 一 些 
Cassandra 数 据 


S 


[的 章节 中 ， 我 们 


以 及 


客 


健壮 的 


问题 是 如 


可 选择 


“i 如 果 你 要 写 一 个 Cassandra 应 用 ， 
Pim, PI 


一 个 好 的 客 


户 端 项 目 


五 二 


来 说 是 不 可 见 的 。 使 


与 JDBC 的 那 和 
种 完全 不 同 的 机 制 。 
些 Cassandra 的 高 级 客户 端 ， 


不 同 ) 


正确 的 驱动 ， 


Server 或 是 


jPython 和 Cassandra 交 互 ， 将 无 法 找到 


商 数 据 库 的 实 
方 


你 可 以 使 


一 个 


其 他 百 ， 


先 会 看 到 Thrift 和 Avro 是 如 何 工 作 的 , 
， 它 们 是 


独立 的 


库 的 多 种 不 同 选择 。 


8.1. 基本 的 客户 端 API 


对 于 Cassandra 0.6 或 更 早 的 版 本 ， 
这 是 因 
经 存在 ] 


渐 获 
有 一 


获得 支持 ， 


应 该 使 用 一 个 客 
以 紧 跟 Cassandra 本 身 的 更 新 步伐 


开发 者 使 用 


户 端 而 不 要 自己 


本 


它们 如 何 用 


中 将 数据 库 交 互 从 开发 
| — Thrift API 和 Avro 项 目 
门 文 持 的 语言 包括 Java、 
由 第 三 方 的 开发 者 为 了 便 


(我 们 
n e 与 监控 o 


者 的 


3 EH 


将 会 看 到 如 


Thrift Ai 


为 Thrift 接 


E 


有 一 些 


些 Bug 已 


一 年 还 没有 


5| 
JE% 


EAE 主意 力 的 客户 端 


常 少 


在 本 书写 作 的 时 候 ， 
中 。 因 为 无 法 确定 哪 一 种 最 


Z ° Thrift H 


还 不 知道 Thrift 和 Avro 可 以 
终 会 被 文 持 ， 


局 限 ， 而 ] 
关闭 ， 而 Cassandra 的 追随 者 
前 的 版 本 是 0.2， 从 2009 年 


端 API 的 基础 


写 底 层 代 码 。 唯 


。 而 在 0.7 版 本 中 ，Avro 开 始 
Thrif 的 开发 也 不 那么 积极 了 2 比如 ，Thrift 


^M 


们 希望 提供 


我 在 这 


里 会 都 介绍 一 


起 被 支持 多 长 时 间 ， 两 者 


些 。 


为 活跃 的 、 


于 


自己 


可 去 


于 Cassandra。 之 后 ， 
不 同 语言 写成 的 ， 提 供 


了 使 


一 的 


xx 


吸 


开始 就 没有 新 的 版 本 发 布 ， 文档 也 


都 在 当前 的 代码 树 


8.2 Thrift 


Thrift 是 一 个 驱动 层 接口 ， 它 提供 了 用 于 客户 端 使 用 多 种 语言 实现 的 API。Thrift 是 由 Facebook 开 
发 的 ， 并 在 2008 年 捐 给 了 Apache 基金 会 ， 成 为 了 一 个 孵化 器 项 目 。 目 前 位 于 
http://incubator.apache.org/thrift， 不 过 ， 如 果 只 是 为 了 Cassandra 使 用 ， 你 不 需要 单独 下 载 Thrift 。 


Thrift 是 个 代码 生成 库 ， 支 持 的 客户 端 语言 包括 C++、C#、Erlang、Haskell、Java、Objective 
E OCaml、Perl、PHP、Python、Ruby、Smalltalk 和 Squeak。 它 的 目标 是 为 各 种 流行 的 语 
言 提供 便利 的 RPC 调 用 机 制 ， 而 不 需要 使 用 那些 开销 巨大 的 方式 ， 比 如 SOAP e 


EE ]Thrift, 要 使 用 一 个 语言 中 立 的 服务 定义 文 牛 ， 描 述 数据 类 型 和 服务 接口 。 这 个 文件 会 被 
用 作 引 警 的 输入 ， 为 每 种 支持 的 语言 生成 RPC 客 户 端 代码 库 。 汉 种 表态 竺 成 的 设计 让 它 非常 容 
易 被 于 发 者 所 合用 而 且 因为 类 型 验证 都 发 生 在 编译 期 而 非 运行 期 ， 所 以 代码 可 以 很 有 效率 地 
运行 。 


Aa 


as 
— 4 你 可 以 阅读 Thrift 的 作者 写 的 这 篇 全 面 的 论文 来 了 解 Thrift 的 实现 ， 位 于 
http://incubator.apache.org/thrift/static/thrift-20070401.pdf ° 


Thrift 的 设计 提供 了 以 下 这 些 特 性 。 
。 语言 无 关 的 类 型 


因为 类 型 是 使 用 定义 文件 按照 语言 中 立 的 方式 规定 的 ， 所 以 它们 可 以 被 不 同 的 语言 分 诗 。 
比如 ，C++ 的 结构 可 以 和 Python 的 字典 类 型 相互 交换 数据 。 


。 通 用 传输 接口 
不 论 你 使 用 的 是 磁盘 文件 、 内 存 数据 还 是 socket 流 ， 都 可 以 使 用 同一 段 应 用 代码 。 

。 协议 无 关 
Thrift 会 对 数据 类 型 进行 编码 和 解码 ， 可 以 跨 协 议 使 用 。 
。 支持 版 本 
数据 类 型 可 以 加 入 版 本 信息 ， 来 支持 客户 端 API 的 更 新 。 
Thrift 的 数据 定义 文件 使 用 .thrift 扩 展 名 。 在 Cassandra 源 码 目录 下 ， 有 一 个 目录 叫做 interface， 其 


中 有 一 个 文件 名 为 cassandra.thrift。 这 个 文件 包含 了 Cassandra 的 数据 定义 。 这 里 我 不 引用 整个 文 
件 了 ， 它 看 起 来 大 致 是 这 样 的 : 


// 数 据 结构 

struct Column { 
1: required binary name, 
2: required binary value, 
3: required i64 timestamp, 


struct SuperColumn { 
1: required binary name, 
2: required list&lt Column» columns, 


J 


// 异 常 

exception NotFoundException { 
} 
// 其 他 


// 服 务 API 结 构 

enum ConsistencyLevel { 
ZERO = 9, 
ONE = 1, 
QUORUM - 2, 
DCQUORUM - 3, 
DCQUORUMSYNC - 4, 
ALL - 5, 
ANY = 6, 


struct SliceRange { 
1: required binary start, 
2: required binary finish, 
3: required bool reversed-0, 
4: required i32 count-100, 
J 
struct SlicePredicate { 
1: optional list&lt binary> column_names, 
2: optional SliceRange slice_range, 


struct KeyRange { 
1: optional string start_key, 
2: optional string end_key, 
3: optional string start_token, 
4: optional string end_token, 
5: required i32 count=100 


} 
// 服 务 操作 
service Cassandra { 

# auth methods 

void login(1: required string keyspace, 2:required AuthenticationRequest 

auth_request) 
throws (1:AuthenticationException authnx, 
2:AuthorizationException authzx), 


i32 get count(1:required string keyspace, 
2:required string key, 
3:required ColumnParent column parent, 
4:required ConsistencyLevel consistency level-ONE) 
throws (1:InvalidRequestException ire, 2:UnavailableException ue, 
3:TimedOutException te), 


// 其 他 


//meta-APIs 
/** 列 出 集群 中 定义 的 keyspace */ 
set&lt string» describe keyspaces(), 


// 其 他 


性 的 例子 ， 来 示意 Cassandra API 的 Thrift 定 义 文 件 的 构成 。 通 过 这 个 
，Cassandra 客 户 端 接 口 可 以 使 用 哪些 操作 类 型 ， 以 及 它 


这 里 ， 我 使 用 了 一 些 有 代表 
文件 ， 你 可 以 了 解 Thrift 如 何 写 定义 文件 
们 可 以 使 用 什么 数据 结构 。 


在 Cassandra 发 布 版 中 ， 包 含 .thrift 文 件 的 interface 文 件 夹 里 ， 还 有 一 个 叫做 thrift 的 文件 夹 。 这 个 
文件 夹 包含 了 一 些 子 文 件 夹 ， 每 个 都 是 这 个 Thrift 定 义 生 成 的 一 种 语言 的 绑 定 。 


当 编译 Cassandra 的 时 候 ， 接 下 来 发 生 的 事情 是 这 样 的 。Ant 工 具 会 运行 如 下 的 目标 ， 来 生成 
Java、Python 和 Per 的 绑 定 : 


|3 


&lttarget name="gen-thrift-java"> 
&ltecho>Generating Thrift Java code from ${basedir}/interface/ 
cassandra.thrift 
.. . -&lt/echo> 
&ltexec executable="thrift" dir="${basedir} 
/interface"> 
&ltarg line="--gen java" /> 
&ltarg line="-o ${interface.thrift.dir}" /> 
&ltarg line="cassandra.thrift" /> 
&lt/exec> 
&lt/target> 
&lttarget name="gen-thrift-py"> 
&ltecho>Generating Thrift Python code from ${basedir} 
/interface/cassandra.thrift ....&lt/echo> 
&ltexec executable="thrift" dir="${basedir}/interface"> 
&ltarg line="--gen py" /> 
&ltarg line="-o ${interface.thrift.dir}" /> 
&ltarg line="cassandra.thrift" /> 


&lt/exec» 


&lt/target» 


// 


这 些 Ant 目 标 会 直接 调用 Thrift 程 序 ， 为 每 种 不 同 的 语 


其 他 


言传 送 不 同 的 参数 。 注 意 ， 发 布 版 中 也 包 


含有 Java API， 而 这 些 目标 并 不 会 在 正常 的 编译 中 被 调用 。 所 以 如 果 你 希望 使 用 Penl 或 是 python 


接口 ， 


标 ) 


那么 ， 需 要 自己 直接 运行 


o 


这 些 目标 (或 者 修改 build.xml 来 在 编译 任务 中 加 入 这 


要 生成 其 他 语言 的 Thrift 绑 定 ， 


) 


这 些 Ant 目 标 使 用 Cassandra 的 lib 


o 


议 些 


可 以 给 它 传 入 其 他 的 - -gen 开关 (比如 thrift --gen php 


随 着 Cassandra 的 更 新 而 有 变化 。 
8.2.1 Thrift 对 Java 的 支持 


要 编译 Thrift 的 Java 接 口 ， 进 入 到 月 


build.xml 脚 本 。 
822 ”异常 
p» HU JURE 


会 看 到 这 些 异 常 ， 


录 中 的 ]ibthrift-r917130.jar。 注意 ，Thrift 的 JAR 包 


录 〈thrift-home>/lib/java。 在 终端 里 键入 >ant 命令 来 运 和 


的 版 本 号 会 


笃 常 能 看 到 的 异常 。 下 面 列 出 了 一 些 基本 异常 ， 解 释 了 你 为 什么 


端 接 口 可 能 2 


D 


虽然 有 些 异 常 不 在 Thrift 定 义 之 中 。 


e AuthenticationException 


<Ar 


户 使 用 了 


AuthorizationExcepti 


普 误 的 认证 信息 


或 是 用 户 不 存在 。 


on 


用 户 存 在 ， 但 没有 权限 访问 也 
ConfigurationExcepti 


当 一 个 类 装载 数据 库 描 述 名 


这 个 keyspace 。 


on 


守 时 无 法 找到 配置 文件 ， 或 配置 文件 是 错误 的 时 候 会 


抛 出 这 个 异 


常 。 ue CR 或 者 在 只 接受 正 数 的 配置 项 给 


出 了 负 值 或 犯 了 其 他 错误 ， 
InvalidRequestExcept 


j 户 请 求 的 格式 不 正确 。 
时 没有 给 出 所 有 需要 的 参数 


NotFoundException 


m" 


TException 


当 调 用 了 一 个 对 服务 器 来 说 
的 版 本 和 服务 器 的 版 本 不 


H o 


就 会 抛 出 这 个 异常 。 这 个 异常 不 通过 Thrift 接 口 抛 H 


ion 


Bi 


用 户 请 求 了 一 个 不 存在 的 列 。 


能 是 你 同一 个 不 存在 的 keyspace 或 列 族 请 求 数据 ， 


或 是 在 请 求 


不 合法 的 Thrift 方 法 时 会 得 到 这 个 异常 。 这 个 异常 通常 是 在 所 使 


匹配 时 发 生 的 。 这 个 异常 不 通过 Thrift 接 口 抛 出 ，1 


| 是 Thrift 


RH 


的 一 部 分 。TException 是 无 法 捕捉 的 、 无 法 预见 的 异常 ， 服 务 器 端 会 弹出 这 个 异常 ， 然 
后 中 断 当 前 的 Thrift 调 用 。 它 们 不 是 你 必须 上 自己 定义 的 应 用 异常 。 

e TimedOutException 
响应 所 用 的 时 间 超 出 了 配置 的 极限 ， 默 认 极 限 为 10 秒 钟 。 通 常 这 是 因为 服务 器 过 载 、 节 点 
故障 但 故障 尚未 被 发 现 ， 或 是 请 求 的 数据 量 非常 大 造成 的 。 

e UnavailableException 

Cassandra 的 读 写 过 程 中 ， 响 应 的 副本 数 没 有 达到 要 求 的 数量 。 这 个 异常 不 通过 Thrift 接 口 抛 
出 o 
8.2.3 Thrift 小 结 
如 果 你 希望 在 项 目 中 直接 使 用 Thrift， 那 么 在 windows 上 使 用 时 有 一 些 先决 条 件 (参考 
http://wiki.apache.org/thrift/ThriftInstallaüionwin32 ) ， 并 且 很 多 东西 都 可 能 出 错 。 这 部 分 因为 
Thrift 本 号 还 太 年 轻 ， 在 传输 的 实现 上 有 很 多 不 足 ， 而 且 自 从 开源 以 来 并 没有 得 到 很 多 直接 关 
JŒ, Cassandra HJ RES $R m] Avro ° 
8.3 Avro 
Apache Avro 项 目 是 个 数据 序 列 化 ， 是 针对 RPC 系 统 从 Cassandra0.7 版 本 开始 引入 的 Thrift 的 替 
代 品 。Avro 由 Doug Cutting 创 立 ， 他 最 著名 的 事迹 可 能 算是 创立 了 Apache Hadoop 项 目 和 Google 
MapReduce 算 法 的 实现 。 
Avro 提供 很 多 和 Thrift 以 及 其 他 数据 序列 化 与 RPC 机 制 非常 类 似 的 特性 ， 类 似 系统 还 有 Google 的 
Protocol Buffer。 这 些 特性 包括 : 

。 强健 的 数据 结构 ; 

。 用 于 RPC 调 用 的 高 效 的、 市 省 空间 的 二 进 制 格 式 ，; 

。 易于 与 Python、Ruby、Smalltalk、Perl、PHP 和 Objective-C 等 动态 类 型 语言 集成 。 
Avro 有 几 个 Thrift 不 具备 的 优点 ， 特 别 是 应 用 的 RPC 不 需要 静态 代码 生成 ， 尽 管 你 可 以 把 静态 代 
码 生 成 作为 一 种 对 静态 类 型 语言 的 优化 。 这 个 项 目 从 某 种 意义 上 说 台 au (当前 版 本 号 
1.3.03) ， 而 且 也 更 加 活跃 。 
运行 Cassandra 的 Ant 文 件 时 ， 编译 目标 会 在 调用 其 他 东西 的 同时 ， 调 用 avro-generate 目标 ， 

这 就 会 生成 Avro 接口 。 这 些 文件 和 Thrift 生 成 的 文件 一 样 ， 都 放 在 interface 目 录 中 。 要 找到 
Cassandra 的 Avro 接口 的 完整 定义 ， 可 以 查看 cassandra.avpr 文 件 ， 其 中 包含 了 Cassandra 客 户 端 可 
以 使 用 的 所 有 消息 和 操作 的 JSON 定 义 。 

{ 

"namespace": "org.apache.cassandra.avro", 

"protocol": "Cassandra", 

"types": [ 

("name": "ColumnPath", "type": "record", 
"fields": [ 
("name": "column family", "type": "string"), 
("name": "super column", "type": ["bytes", "null"]), 
("name": "column", "type": ["bytes", "null"]) 


J 
u 


("name": "Column", "type": "record", 


"fields": [ 
("name": "name", "type": "bytes"), 
("name": "value", "type": "bytes", 
("name": "timestamp", "type": "long"; 
] 
3 
("name": "SuperColumn", "type": "record", 
"fields": [ 
("name": "name", "type": "bytes"), 
("name": "columns", "type": ("type": "array", "items": 
"Column"? 
] 
3 
// 其 他 
"messages": { 
"get": { 
"request": [ 
("name": "keyspace", "type": "string", 


Í"name": "key", "type": "string"), 
("name": "column path", "type": "ColumnPath"j, 


("name": "consistency level", "type": "ConsistencyLevel") 
], 
"response": "ColumnOrSuperColumn", 
"errors": ["InvalidRequestException", "NotFoundException", 


"UnavailableException", "TimedOutException"] 
}, 
"insert": ( 
"request": [ 
("name": "keyspace", "type": "string"}, 
"name": "key", "type": "string"), 
("name": "column path", "type": "ColumnPath"), 
("name": "value", "type": "bytes", 


("name": "timestamp", "type": "long"}, 
("name": "consistency level", "type": "ConsistencyLevel") 
Y "null", 
"errors": ["InvalidRequestException", "UnavailableException" 
"TimedOutException"] 
u 
// 其 他 


JSON 格 式 非 常 简洁 易 懂 。 比 如 ， 可 以 看 到 至 少 有 两 类 消息 : 一 类 表示 取出 请 求 ， 其 他 代表 插入 
请 求 。 每 种 类 型 的 可 能 的 异常 和 它们 的 消息 打包 在 一 起 。 


每 种 异常 的 含义 已 经 在 8.2 节 讨论 过 了 。 


8.3.1 Avro Ant 目 标 


Cassandra 的 build.xml 文 件 定义 了 两 个 Ant 目 标 ， 它 们 在 Cassandra 从 源码 开始 编译 时 会 被 执行 ， 使 
Cassandra 的 ib 目录 中 的 avro-1.2.0-dev.jar 进 行 代码 生成 。 这 两 个 目标 如 下 所 示 : 


&lt!-- 
生成 avro 代码 


--> 
&lt target name="check-avro-generate 


"> 
&lt uptodate property="avroUpToDate" 
srcfile="${interface.dir}/cassandra.avpr" 
targetfile="${interface.avro.dir}/org/apache/cassandra/avro/ 
Cassandra.java" /» 
&lt taskdef name-"protocol" 
classname-"org.apache.avro.specific.ProtocolTask"» 
&lt classpath refid-"cassandra.classpath" /> 
&lt /taskdef» 
&lt taskdef name-"schema 


" classname-"org.apache.avro.specific.SchemaTask"» 
&lt classpath refid-"cassandra.classpath" /> 
&lt /taskdef» 


&lt taskdef name="paranamer 


classname-"com.thoughtworks.paranamer.ant.ParanamerGeneratorTask"» 
&lt classpath refid-"cassandra.classpath" /> 
&lt /taskdef» 
&lt /target» 


&lt target name-"avro-generate 


" unless-"avroUpToDate" 
depends-"init,check-avro-generate"» 

&lt echo»Generating avro code...&lt/echo» 

&lt protocol destdir-"$(interface.avro.dirj"» 
&lt fileset dir-"$[interface.dirj"» 

&lt include namez"**/*.avpr" /> 

&lt /fileset» 

&lt /protocol» 


&lt schema destdir-"$[interface.avro.dirj"» 
&lt fileset dir-"$(interface.dirj"» 
&lt include namez"**/*.avsc" /> 
&lt /fileset» 
&lt /schema» 
&lt /target» 


生成 Thrift 接 口 的 Ant 任 务 是 直接 调用 Thrift 可 执行 文件 (和 命令 行 执 行 是 一 样 


就 复杂 多 了 。check-avro-generate 目标 使 用 了 一 个 称 为 avroUpToDa 
avro-generate 目标 运行 之 前 ， 必 须 由 check-avro-generate 任务 先 


的 ) ， 但 Avro 目标 
te 的 自 定义 属性 。 
确定 所 有 文件 更 新 


到 最 新 版 本 后 设置 这 个 变量 。 如 果 生 成 的 客户 端 API 文 件 没有 跟 上 当前 的 schema 的 更 新 ， 


cassandra.avpr 文 件 就 会 被 重新 恋 入 ， 然 后 生成 /interface/avro 目 录 下 的 源 代 码 。 


org.apache.cassandra.avro.Cassandra. java 文件 表示 运行 时 的 Java Avro 接口 。 


Ant 的 <taskdef> 标签 定义 了 其 后 的 目标 可 以 运行 的 自 定 义 任务 。 这 里 我 人 


务 : SchemaTask 和 ParanamerGeneratorTask ° SchemaTask 是 Avro 本 身 的 一 部 分 ， 用 
于 针对 所 描述 的 协议 生成 Java 接 口 和 类 。ParaNamer 库 (paranamer-generator-2.1.jar) 用 于 ^d FÆ 


] 有 两 个 自 定义 任 


运行 时 访问 非 专 有 的 方法 和 构造 器 的 参数 名 ， 通 常 这 些 名 称 会 被 编译 器 优化 掉 。 它 会 读 取 Avro 
生成 的 Java 类 的 源 代码 目录 ， 输 出 到 编译 输出 目录 里 的 用 于 维护 源码 中 定义 的 名 称 的 Java 类 。 


8.3.2 ”Avro 规范 


Avro 项 目 定 义 了 一 个 规范 ， 理 论 上 说 ， 你 可 以 根据 规范 写 自己 的 实现 。Avro 支 持 六 种 复杂 类 


型 : 记录 (record) 、 枚 举 (enum) 、 数 组 (array) 、 映 射 (map) 、 联 合 
(fixed) 。 


LES 


(union) 和 定 长 


E» * 如 果 你 感 兴趣 的 话 ， 可 以 阅读 http://avro.apache.org/docs/current/spec.html 的 完整 Avro 规 


18, 不 过 过 ， 要 使 用 Cassandra 并 不 需要 这 样 做 。 
Avro 的 定义 使 用 JavaScript 对 象 标记 (JSON) ， 以 schema 的 方式 写成 。 这 一 


点 和 Thrift 非 常 不 


同 ， 在 Avro 中 ， 当 数据 读 取 的 时 候 ，schema 总 会 和 数据 在 一 起 。 这 是 Avro 的 一 个 优点 ， 因 为 这 


样 在 传输 数据 的 时 候 就 可 以 传送 更 少 的 类 型 信息 了 ， 序 列 化 也 因此 更 加 紧密 和 高 效 。 因 为 Avro 


将 数据 和 schema 存 放 在 一 起 ， 这 意味 着 任何 程序 之 后 都 可 以 来 处 理 数据 ， 独 立 于 RPC 机 制 。 


8.3.3 ”Avro 人 小结 


在 Cassandra 0.7 版 本 中 ，Avro 是 它 的 RPC 和 数据 序列 化 机 制 。 它 会 生成 用 于 远程 客户 端 与 数据 库 


交互 的 代码 。 它 在 业界 得 到 支持 ， 而 且 受 惠 于 更 大 、 也 更 知名 的 Hadoop 项 目 。 在 可 以 预见 的 未 


来 ， 它 将 会 很 好 地 支持 Cassandra 。 


关于 Avro 的 更 多 信息 ， 


8.4 Git 简介 


Cassandra 并 不 直接 使 用 Git， 


ERIGERE, 
FRR EE 


—EZ 统 ， 


特性 。GitHub 是 一 个 Git 项 


下 面 这 些 我 们 将 要 一 一 了 


WT DABIS o 


Cassandra 相 关 的 卫星 项 


Twitter 实现 ) 。 


要 得 到 一 个 Git 项 目的 代码 的 最 简 
主干 的 .tar 或 . zip 包 M 


钮 ， 来 下 载 项 目 


可 以 参考 它 的 Apache 项 目 


) 很 多 玫 


解 的 客 


， 如 Twissandra (之 前 作为 一 个 例子 讨论 过 


>apt-get install git, 


如 果 你 需要 修改 项 


Windows, 


GitHub 页 面 ， 找 到 项 
似 这 样 : 


源 代码 (比如 创建 
首先 就 要 安装 Cygwin POSIX 模 拟 器 ， 
的 Git URL。 打 


单方 法 是 找到 项 目的 GitHub 主 页 ， 刘 


一 SO 


页 面 : http://avro.apache.org ° 


wur LUE 那些 用 了 Git 的 客户 端 有 帮助 。 
F 源 项 目 最 近 都 在 向 GitHub 迁 移 。 
abc de 写 ， 用 于 支持 他 的 Linux 内 核 开 发 。 

毛管 站 点 


Ts 
带 有 和 多 社会 化 的 
使 用 Ruby on Rails 创 建 ， 提 供 免费 的 和 商业 的 服务 o 


户 端 都 在 使 用 Git: Webi tl S ` Hector ` Pelops 以 及 其 他 


HU, f£) 


[i 


iu 5 如果 你 在 使 用 Linux 发 布 版 ， 比 如 Ubuntu， 安 装 Git 非 常 简 单 。 
就 会 安装 好 Git 供 你 使 用 。 


n 


REIA 


上 分 文 项 目 


， 怠 需要 使 用 Gi 


jCassandra 写 成 的 


“Download Source” 按 


终端 ， 输 入 


。 如 果 你 使 用 


然后 安装 Git。 接 下 来 


E. NM 《 趣 的 项 目 
开 终 端 ， 在 你 准备 放 源 码 的 目录 使 用 Clone 命令 。 


输出 Li 


.../gitrep»git clone http://github.com/suguru/cassandra-webconsole.git 
Initialized empty Git repository in C:/git/cassandra-webconsole/.git 
remote: Counting objects: 604, done. 
remote: Compressing objects: 100% (463/463), done. 

remote: Total 604 (delta 248), reused 103 (delta 9) 

Receiving objects: 100% (604/604), 6.24 MiB | 228 KiB/s, done. 
Resolving deltas: 100% (248/248), done. 


现在 ， 
论 超 出 了 本 书 的 范围 ， 
His //help.github.com , 


我 们 有 了 一 个 以 Git 项 


命名 的 子 目 录 了 


8.5 ”连接 客户 端 节 点 


日 设置 好 了 集群 ， 
T" "mr pru 


8.5.4 客户 端 列 表 


最 直接 的 连接 到 集群 的 方法 
个 列表 。 你 允许 客户 端 从 这 个 列表 之 中 ， 
是 顺序 选择 。 这 种 方法 可 以 看 做 是 菏 f 


Poa or 


AET A a EAE) 


点 就 无 关 紧 要 了 。 


SKAH, > 
有 一 些 方法 可 以 让 一 切 组 织 得 


iier 


; 它 了 。 关 于 Git 的 完整 讨 
不 过 你 可 以 从 GitHub.com 了 解 更 多 知识 。 该 网 站 的 帮助 文档 位 于 
另 一 个 网 站 http://gitref.org 也 为 Git 初 学 者 提供 


了 不 错 的 参考 信息 。 


因为 Cassandra 世 点 是 对 称 的 ， 任 
自发 送 到 负责 数据 所 在 区 间 的 节点 。 


更 为 有 序 和 高 效 。 


是 维护 一 个 服务 器 的 地 址 或 主机 名 的 列表 ， 
按照 某 种 规则 选择 连接 的 服务 器 ， 可 能 是 随机 选择 或 
廉价 的 负载 均衡 器 。 


Lam E 


|3 


| 不 需要 任何 人 


种 方法 极为 难以 管理 


并 在 客户 


干预 。 对 于 测试 而 


， 这 没有 问题 ， 不 过 这 


FB 


端 循环 使 用 这 


8.5.2 ”循环 DNS 


另 一 个 可 选 方案 是 创建 一 个 DNS 记录 来 代表 集群 中 的 一 组 服务 器 。 使 用 循环 DNS (round-robin 
DNS) 让 客户 端 可 以 简单 干净 地 连接 服务 器 。 这 个 方法 的 优点 是 不 需要 任何 维护 工作 ， 也 不 需 
要 客户 端 逻辑 来 决定 连接 不 同 的 节点 ， 是 推荐 的 方法 。 


8.5.3 ”负载 均衡 器 


第 三 个 方法 是 给 Cassandra 集 群 配备 一 个 负载 均衡 器 ， 配 置 所 有 客户 端 都 连接 到 它 。 人 负载 均衡 器 
将 作为 配置 扩展 点 。 


8.6 Cassandra Web 控 制 台 


Cassandra 有 一 个 Web 控 制 台 ， 由 Suguru Namura 提 供 ， 代 码 托管 在 GitHub ° 军 制 台 通 过 使 与 
Cassandra 的 交互 简单 化 ， 来 进行 各 种 任务 和 查看 集群 信息 。 在 介绍 你 将 wi J dii 与 数据 库 交 互 
的 真实 客户 端 之 前 ， 我 首先 介绍 了 这 个 控制 台 ， 因 为 它 可 以 为 你 提供 一 个 非常 友好 的 Cassandra 
实例 配置 的 视图 。 


你 可 以 从 http://github.com/suguru/cassandra-webconsole 下 载 控制 台 ， 作 为 一 个 WAR 来 运行 。 如 引 
可 以 使 用 Git 来 创建 一 个 分 支 仓库 ， 或 是 直接 从 下 载 页 下 载 一 个 打包 文件 即 
o 控制 台 的 运行 需要 Java 6 和 Tomcat 6。 如 果 要 编译 这 个 项 目 ， 还 需要 Maven e 


让 我 们 来 简单 看 看 它 支 持 的 特 


A 


SE 


LEE 
rrF 
o 


* keyspace 


控制 台 人 允许 你 查看 keyspace 的 局 
keyspace 和 列 族 的 配置 信息 


。 列 族 

可 以 添加 或 删除 列 族 ， 查 看 它们 的 键 值 。 
。 环 

可 以 查看 系统 信息 ， 诸 如 运行 时 间 和 堆 内 存 占 用 等 。 


ll 


UE 


£, SUD 


E 命 名 和 删除 keyspace。 也 可 以 查看 每 个 


E 如 果 你 在 同一 台 机 器 上 也 运行 了 Cassandra 实 例 ， 则 需要 修改 Tomcat 的 端口 ， 因 为 
Cassandra 把 8080 和 8084 端 口 用 作 了 JMX ° 


我 在 自己 的 机 器 上 启动 了 一 个 控制 台 ， 位 于 http://localhost:9999/cassandra-webconsole 。 当 你 第 
一 次 启动 控制 台 时 ， 会 看 到 一 个 界面 ， 让 你 输入 需要 连接 的 Cassandra 服 务 器 的 信息 。 


分 帧 传输 与 缓存 传输 


有 两 种 用 于 连接 Cassandra 的 传输 类 型 可 供 选 择 : 分 帧 传输 与 缓存 传输 。 分 帧 传输 被 加 入 到 
Thrift 当 中 ， 用 于 支持 匿名 服务 器 。 两 种 传输 方式 上 没有 明显 的 性 能 差异 ， 但 是 客户 端 语 言 的 
选择 可 能 会 让 你 只 能 使 用 某 一 种 。 比 如 Twisted Python 需要 使 用 分 帧 传输 ， 而 Haskell、 
Ocaml、Cocoa 和 Smalltalk (截止 到 本 书写 作 时 ) 不 支持 分 帧 传输 。 


因为 你 需要 在 Cassandra 服 务 器 上 打开 这 一 支持 ， 控 制 台 会 请 你 指定 使 用 哪 种 传输 方式 。 


一 旦 连接 到 一 个 Cassandra 服 务 器 上 ，Web 控 制 台 就 会 读 取 它 的 配置 信息 ， 并 带 你 开始 与 
Cassandra 的 交互 。 


图 8-1 显 示 了 控制 台 自 己 的 配置 界面 。 图 8-2 展 示 了 控制 台 显示 的 keyspace 和 列 族 配置 信息 界面 的 

截屏 。 可 以 看 到 ， 这 里 有 四 个 keyspace。 选 择 Keyspacel 来 显示 其 中 的 列 族 定 义 ， 其 他 的 几 个 

ed Test 和 Twitter 。 使 用 这 个 界面 ， 可 以 给 keyspace 加 入 列 族 、 重 命名 keyspace、 
全 删除 keyspace， 或 是 创建 新 的 keyspace 。 


* 
CG fi vr htp:/iocahost:959 andra-webcons 
`) Customize Links (7) Web Properties CJ No5Q CJ local D) BogIt W Cassandra SYN Code 


Setup configuration 


Cassandra Host localhost 


Thrift Port 


JMX Port 


Framed Transport 


图 8-1: Cassandra Web 控 制 台 的 配置 界面 


» D A 
™ Do 


CompareSubcolummsWith | org ache cansandra 09 mars UTPÉ Type 
Compirewm oa 30x he 


图 8-2: Web 控制 台 的 keyspace 和 列 族 信息 界面 


如 图 8-3 所 示 ， 添 加 一 个 列 族 或 超级 列 族 非常 简单 。 不 过 ，Web 控 制 台 还 不 能 像 你 所 硕 望 的 那 
样 ， 允 许 你 向 列 族 中 加 入 数据 。 


Add Column Family 


Column Family Name NewColumF amily 
Comment Top Secret Stuff 
Column Type Super vj 
Comparator UTF8 xj 
Sub Comparator UTF8 vj 
Key Cache Size 200000 
Row Cache Size 0 
Preload Row Cache 

ED 


图 8-3: 通过 Web 控 制 台 添加 一 个 超级 列 族 


-4 所 示 ， 你 还 可 以 在 Ring 界 面 看 到 服务 器 运行 多 长 时 间 了 、 消 耗 了 多 少 内 存 ， 以 及 负载 情 
vU e 


Mode Status Load Heap Uptime 
96436731 | Mrmal| UP |5087 1B|09.91 MO / 1023 94 MB | 09 20h 15m 27: 


图 8-4 : Ring 界 面 展 示 了 系统 的 使 用 情况 


Ber Web 探 制 台 提 供 了 一 个 直观 而 有 吸引 力 的 界面 ， 让 Cassandra 的 基本 管理 任务 变 得 更 加 简 
Re 


ju 


8.7 Hector (Java) 


Hector 是 一 个 用 Java 语 言 编 写 的 ， 在 MIT 许 可 证 下 发 布 的 开源 项 目 。Hector 由 Outbrain 的 Ran 
Tavory 〈 前 Google 雇 员 ) 创立 ， 托 管 在 GitHub。 这 是 Cassandra 最 早 的 客户 端 之 一 ， 并 使 用 在 
Outbrain 的 产品 之 中 。 它 包装 了 Thrift， 并 提供 了 JMX、 连 接 池 和 故障 恢复 。 


一 个 在 希腊 神话 中 ，Hector 是 特洛伊 城 的 建造 者 ， 也 是 一 位 出 色 的 武士 。 他 是 Cassandra 的 兄 


因为 Hector 是 Cassandra 的 第 一 个 客户 端 项 目 ， 也 因为 它 被 开发 者 们 非常 广泛 地 使 用 ， 甚 至 有 其 
也 客户 端 基 于 它 开 发 (28.87) ， 我 会 给 出 一 个 简单 而 完整 的 使 用 Hector 的 例子 。 


要 获取 Hector， 可 以 从 所 它 的 GitHub 站 点 http://github.com/rantav/hector 克隆 它 。 如 果 你 希望 获取 源 
尺码 ， 使 用 git 命令 即 可 。 如 果 只 需要 二 进 制 包 ， 可 以 直接 从 Download 标 签 下 载 。 


8.71 特性 


很 受 支 持 的 、 全 功能 的 Cassandra 客 户 端 ， 有 很 多 用 户 和 活跃 的 社区 。 它 提供 了 如 
下 功能 。 


。 面向 对 象 的 高 级 API 


Java 开 发 者 可 以 使 用 Hector 提 供 的 Keyspace、Column 等 接口 ， 非 常 符合 Java 开 发 者 的 使 用 习 


jr 


o 


故障 恢复 支持 
Thrift 不 支持 失败 的 客户 端 ， 因 为 Cassandra 倾 向 于 用 在 一 个 高 度 分 布 化 的 模式 下 ， 支 持 数 
库 环 中 有 节点 发 生 故 障 。 但 要 是 客户 端 连接 到 的 节点 刚好 宕 机 了 ， 如 果 客 户 端 能 支持 故障 
恢复 一 一 自动 寻找 其 他 节点 来 完成 你 的 请 求 ， 应 该 是 件 很 不 错 的 事 。 和 幸运 的 是 ，Hector 就 
提供 了 这 个 功能 。 

。 连接 池 


Cassandra 特 别 为 高 可 扩展 性 而 设计 ， 相 应 地 ， 这 也 要 求 客 户 端 应 该 文 持 连接 池 ， 以 便 应 用 
影响 Cassandra 性 能 的 瓶颈 。 与 JDBC 一 样 ，Cassandra 打 开 与 关闭 连接 的 代价 也 很 
。Hector 的 连接 池 使 用 了 Apache 的 GenericObjectPool ° 


"E 


。JMX 支 持 


Cassandra 大 量 使 用 了 JMX， 这 对 于 监控 来 说 非常 方便 。Hector 直 接 通 过 暴露 规格 ， 比 如 坏 
连接 、 可 用 连接 、 空 闲 连 接 等 ， 来 支持 JMX 。 


8.7.2 Hector API 


V 
例子 : 


i 是 Ran Tavory 的 博客 上 (http://prettyprint.me ) 的 用 于 演示 Hector 如 何 简 化 Cassandra 使 用 的 


// 创建 一 个 cluster 

Cluster c = HFactory.getOrCreateCluster("MyCluster", "cassandra1:9160"); 
// 选择 一 个 keyspace 

KeyspaceOperator ko = HFactory.createKeyspaceOperator("Keyspacei1", c); 
// 选择 一 个 字符 串 提 取 器 

StringExtractor Se = StringExtractor.get(); 


// 插入 值 
Mutator m = HFactory.createMutator(keyspaceOperator); 
m.insert("key1", "ColumnFamily1", createColumn("columni1", "valued", se, se)); 


// 现在 ， 读 一 个 值 
// 创建 一 个 查询 
ColumnQuery&lt String, String» q = HFactory.createColumnQuery(keyspace- 


Operator, se, se); 
// 设置 键 值 、 列 名 、 列 族 名 ， 然后 执行 
Result&lt HColumn&lt String, String»» r = q.setkey("key1").setName("column1"). 
setColumnFamily("ColumnFamily1").execute(); 


// 从 结果 中 读 取 值 


HColumn&lt String, String» c = r.get(); 
String value = c.getValue(); 
System.out.println(value); 


8.8 HectorSharp(C#) 


HectorSharpzéRan Tavory 的 Java 客 户 端 Hector 的 C# 语 言 移植 版 本 〈Tavory 也 是 HectorSharp 项 目的 
一 个 追随 者 ) 。 它 的 特性 非常 类 似 Hector: 

。 具有 直观 的 、 面 向 对 象 接口 的 高 级 客户 端 ; 

。 客户 端的 故障 恢复 ; 

。 连接 池 ; 

。 负载 均衡 。 
我 们 来 看 看 如 何 使 用 HectorSharp 作 为 Cassandra 接 口 ， 如 何 创 建 一 个 应 用 。 这 大 概 是 用 来 了 解 如 
何 把 它 加 入 到 项 目的 最 好 方法 。 我 们 将 创建 一 个 简单 的 C# 控 制 台 应 用 项 目 ， 从 Cassandra 读 写 一 
些 数 据 ， 这 样 你 就 可 以 看 到 如 何 使 用 HectorSharp 了 ° 

书写 作 时 ，HectorSharp 是 对 应 于 Cassandra 0.6 而 非 0.7 的 1 ° 

译注 1: 这 个 项 目 似乎 从 2010 年 5 月 至 今 都 没有 更 新 过 了 。 
HectorSharp 的 代码 可 以 使 用 Git 从 http://github. com/mattvv/hectorsharp 获得 。 记 住 ， 要 想 方 便 地 通 
过 Git 获 取 源 代码 ， 打 开 终 端 并 进入 所 希望 项 目 目录 的 父 目录 ， 使 用 git clone 命 令 打 开 带 有 .git 后 


级 的 URL， 如 下 : 


>git clone http://github.com/mattvv/hectorsharp.git 


获取 代码 之 后 ， 


下 载 它 。 你 还 可 以 免费 
开发 环境 是 免费 的 ， 


http://www.microsoft.com/ 


成 


需要 确认 安装 了 .NET Framework 3.5 或 更 


SE HH 


而 


且 很 容易 用 了 


并 需 


pa 


要 一 点 时 间 3 


装 好 Visual Studio 


之 后 ， 


FA 


计算 机 


o 


C# 的 项 目 
express/Downloads 下 载 Visual Studio C£ Express, 


FHectorSharp 项 


新 的 版 本 ， 可 以 从 微软 的 官方 网 站 免费 


。 可 以 从 


, BL 


项 目的 引用 


项 


Express 版 本 的 Visual Studio 可 


kl zz 


在 项 上 


浏览 


"d 


iE 


H I 


中 使 用 它 了 。 
要 创建 一 个 使 用 


ExecuteHector, 


ELI, 
到 “Build Succeeded” 的 提示 。 


E bs 


HectorSharp 的 应 用 ， 
你 将 会 


建立 一 个 


这 个 项 


ANE 
BES 


明 自 


右 右键 单 击 HectorSharp , 从 源 
这 样 就 生成 了 HectorSharp.dll 文 件 


己 不 做 文件 


vd 


可 以 看 到 项 


的 源 代码 ， 并 


， 选 择 File > Open Project.. 


码 编 译 HectorSharp。 你 可 以 在 左 1 


带 有 .NET Framework 4.0 的 Visual Studio .NET 2010 Express, 


软件 的 安装 可 能 会 需 


把 它 加 为 我 们 自 
.然后 选择 HectorSharp.sln 文 件 。 
解析 ， 不 过 不 用 为 此 担心 。 


X 


这 个 集 


NZ 


, TERIM EA 


自己 


的 应 用 


XFile»New Project...>Console Application 。 我 们 起 名 叫 


名 为 Program.cs 带 有 main 方 法 的 shell 类 。 


现在 ， 我 们 要 引 用 HectorSharp. dl， 这 样 才能 用 这 个 类 。 要 做 到 这 点 ， 可 以 选择 Project > Add 
Reference。 当 对 话 框 出 现时 ， 进 入 Browse 标 签 页 ， 定 位 到 我 们 存放 HectorSharp 的 位 置 ， 进入 
bin\Release 目 孙 ， 选 择 HectorSharp.dl。 你 应 该 可 以 在 项 目 浏览 器 中 看 到 HectorSharp 已 经 添加 为 
引用 库 了 。 


A a 


[4 我 把 应 用 的 名 称 修改 为 CassandraProgram.cs 了 “。 如 果 你 也 要 这 么 做 ， 应 该 通过 选择 
Project > ExecuteHector Properties， 在 项 目 中 修改 可 执行 文件 名 。 选 择 应 用 标签 ， 之 后 在 
Startup Object 域 输入 你 的 程序 名 字 。 


让 我 们 来 简单 地 看 一 下 HectorSharp 提 供 的 一 些 高 级 结构 。 


e ICassandraClient 


] ， 实 现 类 型 一 般 为 KeyedCassandra- 


个 接口 由 HectorSharp 客 户 端 对 象 使 月 
ClientFactory ° 


e Pool 


HectorSharp pool 是 它 到 Cassandra 的 连接 ， 可 以 使 用 一 个 工厂 方 法 创建 pool， 类 似 这 检 
Pool = new CassandraClientPoolFactory().Create(); 。 然 后 使 用 pool， 可 以 
创建 Client 。 


THE 


e Client 


通过 连接 池 ， 你 可 以 获取 用 于 连接 到 Cassandra 的 客户 端 。 用 法 非常 简洁 : 


Client = new KeyedCassandraClientFactory( 
Pool, 
new KeyedCassandraClientFactory.Config { Timeout = 10 Jj) 
.Make( new Endpoint("localhost", 9160) ) 


首先 把 pool 传 入 到 client 的 工厂 方法 ， 然 后 指定 附加 的 配置 细节 (比如 超时 的 秒 数 ) ， 最 终 使 用 
你 希望 连接 的 主机 和 端口 得 到 一 个 端点 。 在 上 面 的 例子 中 ， 我 们 将 指定 timeout 为 10 秒 (默认 
为 20 秒 ) 。 


。 Keyspace 


从 Client 对 象 获得 的 Cassandra 的 keyspace。 它 允许 你 指定 要 连接 的 keyspace 的 名 字 和 期 望 
使 用 的 一 致 性 级 别 : 


Keyspace = Client.GetKeyspace( 
"Keyspace1", 
ConsistencyLevel.ONE, 
new FailoverPolicy(0) { Strategy = FailoverStrategy.FAIL FAST }); 


FailoverPolicy 类 人 允许 你 指定 如 果 HectorSharp 遇 到 通信 错误 〈 而 非 应 用 错误 ) Hp 
处 理 ， 也 就 是 说 ， 它 是 否 应 该 认为 正 试图 连接 的 节点 已 经 宕 机 了 。 你 可 以 重 试 、 增 量 重 试 ， 
是 决定 退出 ， 正 如 我 在 这 里 的 选择 。 


e ColumnPath 


ColumnPath 是 一 个 简单 地 包装 ， 人 允许 你 更 容易 地 引用 整个 列 族 、 特 定 列 族 中 的 超级 列 ， 
或 是 列 族 中 的 一 个 普通 列 。 它 只 包含 这 三 个 东西 的 C# 属 性 ， 以 及 构造 器 。 


HectorSharp 使 用 了 “四 人 帮 ” 的 Command 模 式 ， 用 于 数据 访问 对 象 (DAO) ， 因 为 这 也 是 Hector 
的 做 法 。 可 以 通过 get 方 法 创建 DAO: 


JEF 
* 取 一 个 字符 串 值 
* Qreturn 字符 串 值 ， 如 果 给 定 键 的 值 不 存在 则 返回 nul1。 
xf 

public String get(String key) 


return execute(new Command&ltString»()1( 
public String execute(Keyspace ks) { 
try { 
return string(ks.getColumn(key, createColumnPath(COLUMN NAME)).getValue()); 
) catch (NotFoundException e) { 
return null; 


H 
} 

}); 
J 
protected static &ltT> T execute(Command&ltT> command) 

{ 

return command.execute(CASSANDRA HOST, CASSANDRA PORT, CASSANDRA KEYSPACE); 

} 


get 命令 使 用 了 参数 化 的 execute 方法 ， 其 他 类 似 命令 还 可 以 用 于 插入 和 删除 (例子 中 没有 给 
。 对 于 我 们 的 应 用 来 说 ， 我 们 会 尽量 保持 简单 ， 但 对 于 这 种 用 例 ， 这 是 一 个 合理 的 设计 模 
式 。 


最 终 ， 我 们 已 经 准备 就 绪 ， 可 以 开始 写 代 码 了 。 你 的 应 用 应 该 类 似 例 8-1 中 的 代码 。 


pt 


例 8-1: CassandraProgram.cs 


using System; 

using HectorSharp; 

using HectorSharp.Utils; 

using HectorSharp.Utils.ObjectPool; 


/** 
* 一 些 C# 应 用 将 会 采用 HectorSharp 作 为 高 级 Cassandra 客 户 端 。 
tZ 


namespace ExecuteHector 


class CassandraProgram 
{ 
internal ICassandraClient Client; 
internal IKeyspace Keyspace; 
internal IKeyedObjectPool&ltEndpoint, ICassandraClient» Pool; 


static void Main(string[] args) 


t 


CassandraProgram app - new CassandraProgram(); 


Console.WriteLine("Starting HectorSharp..."); 
app.Pool - new CassandraClientPoolFactory().Create(); 
Console.WriteLine("Set up Pool."); 
app.Client - new KeyedCassandraClientFactory(app.Pool, 
new KeyedCassandraClientFactory.Config { Timeout = 10 }) 
.Make(new Endpoint("localhost", 9160)) 
Console.WriteLine("Created client."); 


app.Keyspace - app.Client.GetKeyspace( 
"Keyspace1", 
ConsistencyLevel.ONE, 
new FailoverPolicy(0) ( Strategy - FailoverStrategy. 
FAIL FAST }); 
Console.WriteLine("Found keyspace " + app.Keyspace.Name); 


// 设置 要 使 用 的 列 路 径 
var cp = new ColumnPath("Standardi1", null, "MyColumn") 


// 写 值 
Console.WriteLine("NnPerforming write using " + 


cp.ToString()); 
for (inti = 0; i &lt 5; i++) 


t 
String keyname = "key" + i; 
String value = "value" + i; 
app.Keyspace.Insert(keyname, cp, value); 
Console.WritelLine("wrote to key: " + keyname + 

" with value: " + value); 
J 
// 读 值 


Console.WriteLine("NnPerforming read."); 
for (int i = 0; i &lt 5; i++) 


t 
String keyname = "key" + i; 
var column - app.Keyspace.GetColumn(keyname, cp); 
Console.WriteLline("got value for " + keyname +" =" + 
column.Value); 
i 
Console.WriteLine("All done."); 


} 


通过 选择 Debug > Build Solution 来 编译 这 上段 代码 ， 成 为 一 个 控制 台 应 用 。 


现在 我 们 可 以 测试 一 下 程序 了 。 打 开 一 个 终端 ， 向 往常 一 样 启 动 Cassandra: >bin\cassandra 
-f。 现 在 ， 再 打开 一 个 终端 ， 进 入 ExecuteHector 项 目的 目录 ， 然 后 进入 bin\Release 上 有 目录。 我们 
、 了 文件 在 这 个 目录 里 ， 要 运行 程序 ， 只 要 在 命令 行 输入 ExecuteHector .exe 即 可 。 你 

会 看 到 类 似 下 面 的 输出 : 


C:\git\ExecuteHector\bin\Release>ExecuteHector .exe 
Starting HectorSharp... 

Set up Pool. 

Created client. 

Found keyspace Keyspacei 


Performing write using ColumnPath(family: 'Standardi1', super: '', column: 
'MyColumn' 

wrote to key: keyO with value: valueO 

wrote to key: key1 with value: valuei 

wrote to key: key2 with value: value2 

wrote to key: key3 with value: value3 

wrote to key: key4 with value: value4 


Performing read. 


got value for keyO = valueO 
got value for key1 = valuei 
got value for key2 - value2 
got value for key3 - value3 
got value for key4 - value4 


All done. 


C:NgitNExecuteHectorNbinNRelease» 


可 以 看 到 ， 如 果 要 创建 一 个 C# 应 用 ， 并 希望 使 用 Cassandra 作 为 后 端 数据 库 ， 从 HectorSharp 开 始 
会 非常 容易 ， 而 且 他 的 对 象 模型 非常 高 级 、 直观 、 易 于 使 用 。 不 过 ， 需 要 当心 的 是 ， 在 本 书写 
作 时 ，HectorSharp 还 非常 不 成 熟 ， 所 以 ， 投 入 大 把 精力 之 前 应 该 先 确定 需求 是 否 可 以 满足 。 


你 可 以 在 http://hectorsharp.com 更 多 地 了 解 HectorSharp 项 目 。 


8.9 Chirper 


如 果 你 是 一 个 .NET 开 发 者 ， 可 能 会 对 Chirper 感 兴趣 。Chirper 是 Twissandra 的 一 个 .NET 平 台 移 植 
的 版 本 ， 由 Chaker Nakhli 写 成 。 这 个 项 目 在 Apache 2.0 许 可 证 下 发 布 ， 源 代码 位 于 GitHub: 
http://github.com/nakhli/Chirper 。 你 可 以 在 http://www.javageneration.com/?p=318 读 到 一 篇 介绍 
Chirper 的 博客 。 


8.10 Chiton (Python) 


Chitonzé Brandon Williams Ħ Python GTK 框 架 写 的 一 个 Cassandra 浏 览 器 。 你 可 以 从 
http://github.com/driftx/chiton 下 载 这 个 项 目 。 它 有 一 些 依赖 环境 ， 所 以 需要 一 些 配置 才能 使 用 。 
要 使 用 Chiton， 系 统 需要 有 如 下 软件 : 


。 Python 2.5 或 更 新 的 版 本 ; 


e Twisted Python (一 个 事件 驱动 的 Python 网 络 接 口 )， 可 以 在 http://twistedmatrix.com/trac 找 
FI]; 


E 


e Thrift (0.2); 


。 PyGTK 2.14 或 更 新 的 版 本 《一 个 Python 图 形 界 面 库 ) 可 以 在 http://www.pygtk.org 获得 。 它 
还 依赖 于 GTK+， 如 果 你 使 用 Linux， 应 该 已 经 安装 了 GTK+ 了 ; 而 如 果 你 使 用 Windows， 也 
E EHE 只 要 将 它 下 载 到 一 个 目录 ， 并 手工 将 其 中 的 bin 子 目录 加 入 系统 路 

量 D 


8.11 Pelops (Java) 


Pelops 是 由 Dominic Williams 开 发 的 一 个 免费 、 开 源 的 Java 客 户 端 。 它 类 似 于 Hector， 也 是 
开发 的 ， 但 是 这 个 项 目 更 新 一 些 。Pelops 已 经 成 为 一 个 很 流行 的 客户 端 ， 它 的 目标 包括 : 


。 创建 一 个 简单 、 易 于 使 用 的 客户 端 ; 
。 把 数据 处 理 的 考虑 与 诸如 连接 池 之 类 的 底层 元 素 分 离开 ; 
。 更 紧密 地 跟 上 Cassandra 的 开发 ， 保 持 最 新 。 


dü 


Java 


| 


Pelops 的 API 比 使 用 Thrift 或 Avro 暴 露出 来 的 底层 API 要 简单 得 多 。 要 写 入 数据 ， 只 需要 一 个 
Mutator 类 ， 要 读数 据 ， 只 需要 使 用 Selector 。 下 面 是 Williams 的 网 站 上 的 一 个 简单 例子 ， 
创建 一 个 连接 到 一 组 Cassandra 服 务 器 的 连接 池 ， 然 后 向 一 个 超级 列 写 入 多 个 子 列 值 : 


p" 


Pelops.addPool( 
"Main", 
new String[] { "cassi.database.com", "cass2.database.com", "cass3.database.com"), 
9160, 
new Policy()); 


Mutator mutator - Pelops.createMutator("Main", "SupportTickets"); 


UuidHelper.newTimeUuidBytes(), // 使 用 一 个 时 间 排序 的 UUID 值 
mutator.newColumnList( 
mutator.newColumn("category", "videoPhone"), 
mutator.newColumn("reportType", "POOR PICTURE"), 
mutator.newColumn("createdDate", NumberHelper.toBytes(System. 
currentTimeMillis())), 
mutator.newColumn("capture", jpegBytes), 
mutator.newColumn("comment") )); 


mutator.execute(ConsistencyLevel.ONE); 


这 可 比 直接 使 用 Cassandra API 的 用 法 简单 多 了 。 


你 可 以 从 http://code.google.com/p/pelops 获得 项 目的 源 代码 ， 还 可 以 在 Dominic Williams 的 网 站 
http://ria101.wordpress.com 看 到 很 多 关于 如 何 使 用 Pelops 的 示例 和 解释 。 


如 果 你 要 在 一 个 Java 应 用 中 使 用 Cassandra， 我 建议 党 试 一 下 Pelops。 


Srat 


8.12 Kundera (Java ORM) 


Kundera 是 一 个 使 用 Java 注 记 (annotation) 写成 的 Cassandra 的 对 象 关系 映射 实现 。 项 目 位 于 
http://kundera.googlecode.com ， 以 Apache 2.0 许 可 证 发 布 。 按 照 其 作者 Impetus Labs 的 介绍 ， 
Kundera 的 目标 是 : 


— 让 使 用 Cassandra 变 得 极其 简单 和 有 趣 。Kundera 不 会 毫 无 意义 地 重 做 另外 一 个 客户 端 库 ， 
而 是 衡量 已 有 的 库 并 在 它们 之 上 再 次 封装 API， 来 帮助 开发 者 避免 不 必要 的 体力 劳动 ， 只 要 编 
写 简 单纯 粹 的 代码 ， 减 少 代码 复杂 度 、 提 升 质量 。 最 终 提 高 生产 力 。 


Kundera 底 层 使 用 Pelops。 一 个 简单 的 Java 实 体 bean 会 类 似 这 样 : 


@Entity 
@ColumnFamily(keyspace = "Keyspace1", family = "Band") 
public class Band { 
@Id 
private String id; 
GQColumn(name = "name") 
private String name; 
GQColumn(name = "instrument") 
private String instrument; 


你 可 以 进行 一 个 这 样 的 JPA 查 询 : 


Query query = entityManager.createQuery("SELECT m from Band c where 
name-'george'"); 
List&ltSimpleComment» list = query.getResultLlist(); 


一 | 
Z4 
EE 
ni 
E 
pu 
zi 
XR 


在 本 书写 作 时 ， 这 个 库 还 相当 新 ， ee 
看 好 ， 正 适合 一 般 的 应 用 开发 者 们 对 Cassandra 正 在 迅速 增长 的 兴 


8.13 Fauna (Ruby) 


Twitter 的 Ryan King LAK Evan Weaver 创 建 了 一 个 Cassandra 数 据 库 的 Ruby 客 户 端 ， 称 为 Fauna。 如 
果 你 从 Ruby 程 序 中 访问 Cassandra， 这 个 可 能 正 是 你 的 选择 。 要 了 解 更 多 Fauna 的 情况 ， 可 以 查 
看 http://github.com/fauna/cassandra/blob/master/README.rdoc ° 


8.14 小结 


现在 ， 你 已 经 了 解 了 各 种 Cassandra 的 客户 端 接 口 ， 以 及 如 何 安 装 使 用 这 些 客户 端 。 有 很 多 种 
Cassandra 客 户 端 ， 各 有 优势 和 局 限 ， 使 用 不 同 的 语言 ， 有 不 同 的 成 熟 度 。 这 里 不 太 可 能 探讨 
种 客户 端 ， 所 以 ， 我 只 选择 了 集中 不 同 语言 平台 下 的 几 个 有 代表 性 的 客户 端 进行 了 介绍 。 要 
看 更 多 的 可 选 客户 端 ， 可 以 访问 Cassandra 项 目的 wiki 页 面 “客户 端 选 择 "， 页 面 位 于 
http://wiki.apache.org/cassandra/ClientOptions ° 


第 9 章 ”监控 


本 章 讨论 使 用 各 种 不 同 的 工具 对 Cassandra 进 行 监控 ， 并 了 解 Cassandra 集 群生 命 周 期 中 的 重要 习 
牛 。 我 们 将 了 解 一 些 简单 的 查看 运行 信息 的 方法 ， 比 如 修改 日 志 级 别 、 理 解 输 出 等 。 


此 外 ，Cassandra 还 提供 了 内 建 的 Java 管 理 扩展 (JMX) 的 支持 ， 这 让 你 对 Cassandra 节 点 及 其 底 
层 的 Java 环 境 可 以 有 更 丰富 的 监控 手段 。 再 进行 一 点 集成 工作 ， 我 们 就 可 以 看 到 数据 库 的 状态 


[rt E: 


Jur 


言 息 以 及 正在 发 生 的 事件 ， 甚 至 是 远程 调节 一 些 参数 值 。JMX 是 Cassandra 的 一 个 习 
们 会 用 一 些 篇 幅 来 确保 我 们 了 解 JMX 如 可 工作 以 及 利用 它 怎 样 实现 一 些 监控 和 管 
至 还 将 介 绍 如 何 写 自己 的 MBean 来 发 现 新 的 Cassandra 特 性 。 让 我 们 开始 吧 ! 


9.1 日 志 


= AUN 


要 部 分 


我 


蛙 的 功能 ， 


VAS 


最 简单 的 了 解 当 前 数据 库 运行 状况 的 方式 就 是 修改 日 志 级 别 ， 来 输出 更 详细 的 日 志 信息 。 这 对 

于 开发 和 学 习 Cassandra 如 何 运行 非常 有 益 。 
Cassandra 使 用 Log4J 来 输出 日 志 。 LAANE Cassandra 服 务 器 的 日 志 级 别 是 INFO， 这 无 法 给 
你 太 多 Cassandra 正 在 做 什么 的 运行 细 市 。 它 只 输出 基本 的 状态 更 新 ， 如 下 : 

INFO 08:49:17,614 Saved Token found: 94408749511599155261361719888434486550 

INFO 08:49:17,614 Saved ClusterName found: Test Cluster 

INFO 08:49:17,620 Starting up server gossip 

INFO 08:49:17,655 Binding thrift service to morpheus/192.168.1.5:9160 

INFO 08:49:17,659 Cassandra starting up... 
当 在 终端 里 启动 Cassandra 的 时 候 ， 可 以 使 用 程序 的 -f 参数 〈 保 持 输出 在 终端 窗口 前 台 可 见 ) 让 
日 志 输 出 到 这 个 终端 窗口 中 来 。 不 过 ，Cassandra 同 时 也 会 把 日 志 写 pude 这 样 你 可 以 
事后 检查 。 
通过 把 日 志 级 别 改 为 DEBUG ， 我 们 可 以 看 到 非常 多 的 服务 器 工作 的 情况 ， 而 不 只 是 状态 的 更 


LE 
T 


要 修改 日 


TRA, F] 


/conf/log4j-server.properties, Ý} 


~ 


中 找到 这 样 一 行 


log4j.rootLogger-INFO,stdout,R 


t. 


Hk 


HANE 


log4j.rootLogger-DEBUG 
,Stdout, 


Aa 


f. 当然 ， 在 生产 环境 中 ， 
出 可 能 会 让 服务 器 变 慢 很 多 。 


现在 我 们 可 以 看 到 Cassandra 运 行 的 很 多 细节 了 : 


志 级 别 调 到 WARN 或 是 ERROR ， 


大 


为 过 繁琐 的 输 


INFO 09:41:54,936 Completed flushing /var/lib/cassandra/data/system/ 

LocationInfo-8-Data.db 

DEBUG 09:41:54,942 Checking to see if compaction of LocationInfo would be 
useful 

DEBUG 09:41:54,942 discard completed log segments for CommitLogContext 
(filez'/var/lib/cassandra/commitlog/CommitLog-1277397714697.10g',... 

INFO 09:41:54,943 Compacting [org.apache.cassandra. 
io.SSTableReader(path-z'/var/lib/cassandra 

DEBUG 09:41:54,943 Marking replay position 121 on commit log CommitLogSegment 
(/var/lib/cassandra/commitlog/CommitLog-1277397714697.109g)... 


DEBUG 09:41:54,943 index size for bloom filter calc for file 

: /var/lib/cassandra/data/system/LocationInfo-5-Data.db : 256 
DEBUG 09:41:54,944 index size for bloom filter calc for file 

: /var/lib/cassandra/data/system/LocationInfo-6-Data.db : 512 
DEBUG 09:41:54,944 index size for bloom filter calc for file 

: /var/lib/cassandra/data/system/LocationInfo-7-Data.db : 768 


INFO 
INFO 
INFO 
INFO 
INFO 
INFO 


154, 985 
:55, 009 
155,010 
155, 016 
155,048 
155,051 


Log replay complete 

Saved Token found: 94408749511599155261361719888434486550 
Saved ClusterName found: Test Cluster 

Starting up server gossip 

Binding thrift service to morpheus/192.168.1.5:9160 
Cassandra starting up... 


DEBUG 09:41:55,112 
compacted 

IA ss 

DEBUG 

DEBUG 

DEBUG 


09 
09 
09 
09 
09 
09 
09 
09 
09 
09 


141: 
141: 
:41: 
:41: 
:41: 
:41: 
:41: 
:41: 
:41: 
:41: 


55,117 
55,117 
55,117 
55,118 
55,118 
55,118 
55,118 
55,118 
55,119 
55,119 


Estimating 
Estimating 
Estimating 
Estimating 
Estimating 
Estimating 
Estimating 


compactions 
compactions 
compactions 
compactions 
compactions 
compactions 
compactions 


DEBUG 09:41:56,023 

80756296 used; 
max is 1177812992 
DEBUG 09:41:56,035 
DEBUG 09:41:57,025 


GC for ParNew: 1 ms, 


Checking to see if compaction 
Checking to see if compaction 
Checking to see if compaction 


14643776 


attempting to connect to 
Disseminating load info ... 


for 
for 
for 
for 
for 
for 
for 


Superi 

Standard2 

Super2 

Standardi 
StandardByUUID1 
LocationInfo 
HintsColumnFamily 
of Superi would 
of Standard2 wo 
of Super2 would 


reclaimed leavi 


lucky/192.168.1.2 


Marking /var/lib/cassandra/data/system/LocationInfo-5-Data.db 


be useful 
uld be useful 
be useful 


ng 


你 可 以 精确 观察 


Cassandra 在 什么 时 


间 正 在 做 什么 ， 


理解 Cassandra 如 何 自我 维护 也 很 有 好 处 。 
如 果 你 希望 改变 日 志 的 位 置 ， 也 可 以 


在 log4j.properties 


这 对 于 发 现 问题 非常 


文件 里 找到 这 行 ， 并 


, 


有 帮助 。 而 且 ， 对 于 


IER XH 


EA. 


10g4j.appender .R.File-/var/log/cassandra/system.log 


对 于 Windows 来 说 ， 这 个 条 目 是 一 样 的 。 在 Windows 里 ， 这 个 文件 将 自动 解析 成 C:\vamlog' 
cassandraNsystem.log ° 
I» 如 果 在 这 个 路 和 牛 ， 请 确保 你 是 这 个 目录 的 属 主 ， 至 少 拥有 读 写 权限 。 
如 果 Cassandra 无 法 写 日 志 ， 它 告诉 你 的 ， 只 是 不 写 而 已 。 M BUR B e AIC 
注意 ， 这 个 位 置 是 用 于 记录 数据 库 的 行为 的 ， 而 非 记录 Cassandra 的 内 部 数据 文件 的 。 数 据 文件 


存放 在 /varvlib/cassandra ° 
9.1.1 ”跟踪 查看 


要 看 到 深 动 输出 的 日 志文 件 ， 不 必 使 用 前 台 开 
启动 Cassandra 之 后 ， 使 用 tail 来 看 日 志 。 
都 有 这 个 实用 工具 ， 可 以 提供 这 种 功能 


要 跟踪 查看 日 志文 伯 


EF， 直接 这 样 


关 来 启动 Cassandra。 你 还 可 以 不 
tail 不 是 Cassandra 专 有 
， 可 以 在 控制 台 看 到 一 个 文 伯 


启动 Cassardra: 


用 -ff 选项 简单 


的 ， 在 所 有 Linux 发 布 版 ! 
F 末 尾 新 追加 的 内 容 ° 


>bin/Cassandra 


TEE 开 第 二 个 控制 台 


， 输 入 tail 命 


SE 


EARS TB EURIDXCIT 


的 路 径 当 做 参数 传 进去 


>tail -f /var/log/cassandra/system.log 


-f 参数 的 意 


EE “跟踪 ” (follow) 3 


bä% Cassandra ji] H 
志 ， 只 要 按 下 Ctrl-C 就 行 了 。 


志文 件 输出 信息 ，tail 也 会 将 


是 Windows 本 身 六 


出 显示 到 屏幕 上 来 。 要 想 终止 追踪 显示 日 
在 Windows 下 也 能 做 同样 的 事情 ， 但 
点 ， 需 要 下 载 安装 Cygwin， 这 是 一 人 
风格 的 界面 ， 使 用 各 种 Linux 工 具 。F 


个 Bash Shell 模 拟 器 。Cygwin 外 
以 免费 从 http:/www.cygwin.com 获取 它 。 


F 不 提供 tail 


新 的 输 


命令 。 所 以 ， 要 想 做 到 这 


C 许 你 在 Windows F} 


用 有 Linux 


接 下 来 就 可 以 正常 启动 Cassandra， 然 后 使 用 这 个 命令 跟 踩 查看 日 志文 付 


ebenQlucky-$ tail -f C:\\var\\log\\cassandra\\system. log 


这 样 ， 日 志 信息 就 会 像 程序 在 前 台 一 样 ， 输 出 到 控制 台 了 。 


9.1.2 通用 技巧 
1. 跟踪 


一 旦 你 运行 了 一 个 打开 Debug 模 式 的 服务 器 ， 就 可 以 看 到 逢 


多 用 了 


我 们 先 写 一 简单 的 值 到 数据 库 谊 读 出 来 ， 可 以 看 到 日 志 输 出 是 这 样 的 : 


帮助 调试 的 详细 信息 。 比 如 ， 


DEBUG 12:55:09,778 insert 

DEBUG 12:55:09,779 insert writing local key mycol 

DEBUG 12:55:36,387 get 

DEBUG 12:55:36,390 weakreadlocal reading SliceByNamesReadCommand( 
table-'Keyspaced1', keyz'mycol', 
columnParent-'QueryPath(columnFamilyName-'Standard1', 
superColumnName-'null', columnName-'null')', 
columns-[6b6579393939, ]) 


这 是 在 命令 行 执行 的 命令 和 相应 的 服务 器 输出 : 


cassandra» set Keyspace1.Standard1['mycol']['key999']='value999' 
Value inserted . 
cassandra» get Keyspace1.Standard1[ 'mycol']['key999 '] 
=> (column=6b6579393939 


, Value-value999, timestamp-1277409309778000 


为 BytesType ° 


注意 这 里 所 发 生 的 事情 。 我 们 在 名 为 Standard1 的 列 族 
时 ， 列 键 值 key999 转化 成 了 6b6579393939 ， 因 为 Standard1 列 族 的 Comparewith 属性 


与 此 不 同 ， 如 果 使 用 Standard2 列 族 ， 我 们 将 看 到 日 


P 


个 列 族 的 Comparewith 属性 是 UTF-8。 这 次 我 们 写 入 并 取 H 


zh: 


cassandra» set Keyspaceil.Standard2['mycol']['key888']-'value888' 
Value inserted. 


cassandra» get Keyspacei.Standard2['mycol']['key888'] 
=> (column-key888 


, Value-value888, timestamp-1277409950795000) 


里 插入 了 一 个 值 。 当 发 出 get 请 求 


FH 


中 的 列 名 就 是 所 输入 的 字符 串 ， 因 为 这 
同样 的 值 。 命 令 行 的 输入 如 下 所 


相应 的 服务 器 日 志 如 下 : 


DEBUG 13:06:03,291 get 

DEBUG 13:06:03,292 weakreadlocal reading SliceByNamesReadCommand( 
table-'Keyspaced1', keyz'mycol', 
columnParent-'QueryPath(columnFamilyName-'Standard2', 
superColumnName-'null', columnName-'null')', 
columns-[key888, ] 


2. 危险 信号 


通过 这 个 例子 ， 你 应 该 已 经 充分 了 解 了 如 何 用 日 志 跟 踪 你 的 动作 产生 的 影响 。 


运行 Cassandra 的 上 时候， 有 二 = HE. Ha, Aun 
他 相关 信息 ， 环 上 的 节点 可 能 是 有 什么 地 方 出 错 了 : 


“你 在 


志 里 看 到 下 面 这 


句 话 ， 却 没有 其 


DEBUG 12:39:56,312 attempting to connect to mywinbox/192.168.1.3 


尝试 连接 本 身 没 什么 问题 ， 但 之 后 应 该 有 确认 连接 成 功 的 消息 。 这 样 的 消息 有 可 能 是 因为 在 

Cassandra 集 群 里 既 有 Linux 又 有 Windows 造 成 的 ， 这 是 绝对 不 推荐 的 部 署 方式 。 如 果 Linux 和 

Windows 主 机 互相 可 见 ， 并 可 以 共享 打印 机 等 资源 、 互 相 访 问 文件 、 浏 览 对 方 提供 的 网 页 等 ， 

ps 会 觉得 两 者 共存 没什么 问题 。 但 是 ， 在 生产 环境 里 ， 不 要 试图 在 集群 中 混合 搭配 不 同 操 
系统 。 

92 JMX 与 MBean 概 壕 

本 节 中 ， 我 们 探索 Cassandra 如 何 使 用 Java 管 理 扩展 (JMX) 来 进行 远程 服务 器 管理 。JMX 由 Java 

规范 请 求 (JSR) 160 定 义 ， 并 从 Java 5.0 开 始 成 为 Java 的 核心 部 分 。 


Je 你 可 以 通 


多 关于 JMX 实 现 的 细节 。 


na 过 查阅 java.lang.management AX T fff 

JMX 是 一 个 Java API， 它 通过 两 种 途径 提供 dubia e FE CE 
况 和 整体 运行 情况 ， 如 内 存 、 线 程 、 CPU 利 | 用 j 率 等 一 -这些 参数 对 于 所 有 Java 应 用 都 是 适 
的 。 其 次 ，JMX 人 允许 你 对 应 用 的 特定 方面 进行 稽核 。 
稽核 (instrumentation). 是 指 在 应 用 代码 周围 进行 一 层 封 装 ， 让 应 用 代码 提供 一 些 钩子 (hook) 

给 JVM， 从 而 允许 JVM 收 集 部 分 数据 ， 这 样 外 部 工具 就 可 以 使 用 这 些 数据 了 。 这 些 工 具 包括 监 
控 的 代理 程序 享 、 数 据 分 析 工 具 、 性 能 分 析 工 具 等 。JMX 不 仅 允 许 你 来 查看 这 些 数 据 ， 如 果 应 用 
人 允许， 甚至 可 以 通过 更 新 某 些 值 ， 来 在 运行 期 间 管 理应 用 。 
JMX 广 泛 应 用 于 各 种 应 用 的 监控 操作 ， 包 括 : 

。 检测 内 存 不 足 ， 包 括 堆 里 的 各 个 分 度 空 间 尺 十 ; 

。 线程 信息 ， 诸 如 死 锁 检测 、 峰 值 线 程 数 、 当 前 线程 数 等 ; 

。 详 细 的 类 装载 信息 跟踪 ; 

。 日 志 级 别 控 制 ; 

。 通用 信息 ， 如 应 用 运行 时 间 、 当 前 的 classpath ° 
很 多 流行 的 Java 应 用 都 使 用 JMX 进 行 稽核 ， 包 括 JVM 本 喘 、 惠 普 的 Open View、Oracle 的 
WebLogic 服 务 器 、Glassfish 应 用 服务 器 以 及 Cassandra。 在 这 些 应 用 里 ，JMX 是 一 种 简单 的 管理 
容器 的 手段 ， 而 男 一 方面 ，JBoss 应 用 服务 器 使 用 JMX 作 为 与 容器 交互 的 主要 方法 。 
例如 ，WebLogic 服 务 通 过 JMX 提 供 了 非常 广泛 的 行为 数据 。 比 如 ， 监 测 3 连接 池 里 可 用 的 JDBC 连 
接 数 ， 或 是 查看 某 个 给 定 状态 下 容器 中 加 载 的 无 状态 bean 的 个 数 。 你 不 仅 可 以 监控 这 些 参数 ， 
还 可 以 使 用 sun 公司 (现在 是 Oracle 了) JDK 提 供 的 图 形 化 控制 台 来 改变 它们 的 值 。 希望 增加 消 
息 驱 动 bean 池 的 尺寸 ? 一 个 支持 JMX 的 容器 将 允许 你 这 样 进行 资源 管理 。 


图 9-1 中 提 


HF 了 一 个 JMX 架 构 的 


Te p 


图 示 。 


被 稽核 的 Java 应 用 


稽核 
SNMP MIB 


Java 虚拟 机 


图 9-1: JMX 架 构 


JMX 的 架构 非常 简单 。JMX 通 过 底层 操作 系统 收集 信息 。JMX 本 身 是 被 稽核 的 ， 所 以 ， 它 的 很 
多 特性 都 像 前 面 描述 的 那样 暴露 出 来 ， 用 于 管理 了 。 一 个 被 稽核 的 Java 应 用 (比如 Cassandra) 
运行 在 JVM 之 上 ， 也 将 一 些 特性 作为 可 管理 对 象 暴 露出 来 。JDK 包 含 了 一 个 MBean 服 务 器 ， 允 
许 JMX 管 理应 用 通过 一 个 远程 访问 协议 访问 应 用 的 被 稽核 的 特性 。JVM 还 提供 了 一 些 管理 能 
力 ， 支 持 简单 网 络 监测 协议 (SNMP). 代理 使 用 类 似 方式 工作 。 


不 过 ， 对 于 一 个 给 定 的 程序 ， 你 只 能 管理 应 用 开发 者 提供 的 可 管理 的 东西 。 幸 运 的 是 ， 

E SUE 0 0 SE 分 的 稽核 ， 可 以 非常 直接 地 通过 JMX 进 行 
FH o 
Java 应 用 的 稽核 是 通过 对 使 用 可 管理 bean， 对 允许 JMX 加 钩子 的 应 用 代码 进行 包装 来 实现 的 。 


9.2.1 MbBean 


要 


mè 


可 管理 bean (managed bean) ， 简 称 MBean， 是 一 种 特殊 的 Java bean, 用 于 表示 JVM 中 一 个 可 
管理 的 资源 。MBean 与 MBean 服 务 器 进行 交互 ， 从 而 支持 远程 管理 功能 。 


jconsole 工具 是 标准 JDK 的 自 带 工具 。 它 提供 了 一 个 访问 MBean 的 图 形 化 界面 ， 并 可 以 文 持 
本 地 和 远程 的 管理 。JConsole 的 视图 如 图 9-2 所 示 。 


sii: - = J » 
[jpid: 4427 org.apache cassandra thrft.CassendraDaemon | 


图 9-2: 


在 这 


CPU 信 


He 


4 JConsoleBSJDK Tf] 
E" 比如 ，JBoss 应 用 服务 器 的 Web 控 制 


张 


图 中 ， 可 以 看 到 JMX 提 供 


此 给 


NT 


As A T IEEE] SA 


很 多 地 方 本 来 支持 稽核 ， 但 


fü x p 


易于 使 用 ， 


+ 找到 问题 很 有 用 


JConsole 显 示 Cassandra 守 护 程 序 的 峰值 线程 数 


全 应 用 的 两 类 视图 : 每 个 程序 都 有 
| 市 的 视图 。 可 以 看 到 ， 


所 以 非常 流行 。 不 过 这 并 
台 本 身 就 是 一 个 JBoss 服 务 器 的 JMX 客 


是 都 没有 打开 


ix 


属性 


的 通用 的 线程 、 
应 用 的 很 多 稽核 内 


o 线程 瓶颈 


不 是 唯一 可 用 


内 存 以 及 
容 也 在 这 


的 JMX 客 


户 端 。 


(Thread Contention) 就 


可 能 对 于 调试 非常 rH 有 


, H] 以 打开 它 。 不 过 要 牢记 的 


应 用 程序 或 JVM 有 

是 一 个 在 JVM 中 被 默认 关闭 的 有 潜在 用 处 的 MBean 。 
如 果 你 看 到 某 个 MBean 可 能 会 对 

费 的 午餐 ， 阅 读 你 要 打开 


ThreadCPUTime 是 另 一 个 有 


应 用 
， 这 
这 差 
意义 


取 和 


一 个 
i 


中 一 些 简 单 的 


HE. 


个 属性 直接 报 


T 


为 这 个 值 


(这 是 从 实际 


设置 值 了 。 可 


提示 


图 9-3: 
， 参 数 名 对 JMX 客 


注意 


但 是 有 的 MBean 是 可 以 配置 的 。 
以 通过 查 
告诉 你 这 个 值 
信用 于 更 新 的 按钮 。 图 


找 writable ， 
ERRAI; WA 


这 些 MBean 会 提 


9-3 给 


* Java Monitoring & Management Console 


是 true 


供 一 一 些 可 ) 
来 检查 MBean 是 否 可 写 。 
你 就 会 看 到 一 个 或 多 个 域 可 
出 了 一 个 java.util.logging .Logger bean 的 例子 。 


的 MBean 的 JavaDoc 可 以 帮助 你 了 解 潜在 的 性 能 影 
用 而 昂贵 的 MBean 的 例子 。 


直 会 作为 属性 暴露 出 来 。 一 个 例子 是 Threading>PeakThread- Count 
MBean 存 储 的 应 用 的 峰 
不 多 就 是 你 能 做 的 所 有 事情 了 。 因 
青 况 中 记录 下 来 的 ， 不 可 配置 


值 时 刻 线程 数 。 
是 JVM 内 部 维护 的 值 ， 从 外 部 设置 它 没 有 什么 


o 


用 ， 所 以 ， 


ANN 


ifi] e 


点 就 是 没有 免 


通过 刷新 可 以 查看 最 新 的 值 ， 不 过 


的 操作 给 JMX 代 理 E 


如 果 是 false， 


ement.opei 


enmbean SimplsTypetnamesjav 


Tisi pid: 4427 org.apache.cassandra thrift.CassandraDaemon | 


器 在 


编译 阶段 就 已 


经 “ Es 


忘记 ”参数 名 了 。 所 以 ， 要 了 解 需 要 设置 哪些 
的 JavaDoc。 对 于 java.util,1ogging,Logger ， 这 个 类 实现 了 一 个 称 为 
java.util.logging.LoggingMXBean 的 接口 ， 


户 端 是 不 可 见 的 ， 它 们 被 标 


Mid2gp6 ^ p1 之 类 的 名 字 。 这 是 


java.util.logging.Logger MBean 人 允许 你 设置 日 志 级 别 


以 设置 新 值 ， 


这 样 就 可 以 获 


你 就 会 看 到 
并 有 


5 参数 ， 需 要 查看 


进行 月 


于 稽核 的 包装 。 要 找 出 


因为 Java 编 译 
相应 MBean 


参数 的 对 应 


关系 ， 我 们 查看 了 这 个 类 的 JavaDoc， 发 现 p0 是 所 要 修改 的 logger 的 名 字 ， 而 p1 是 希望 设置 为 的 
H 志 级 别 。 


Si 多 说 一 句 ， 如 果 应 和 没有 使 用 java .uit1.1ogging 进行 日 志 的 话 ， 设 置 这 个 日 志 级 
别 对 你 不 会 有 什么 帮助 。 这 里 只 是 LU LEE 因为 它 易于 理解 ， 所以 就 作为 向 REN 
介绍 了 。 但 是 ， e 使 用 这 个 日 志 包 。 


H 


某 些 MBean 会 返回 一 个 javax ,management .openmbean.CompositeDataSupport 类 型 的 
属性 。 这 意味 着 ， 这 些 不 是 LoadedCclasscount 这 样 的 简单 地 可 以 在 一 个 域 里 显示 的 值 ， 而 
是 多 个 值 。 一 个 例子 是 Memory > HeapMemoryUsage ， 它 提供 了 很 多 数据 点 ， 因 此 有 自己 的 
RE e 


另 一 种 类 型 的 MBean 操 作 不 是 简单 地 显示 一 个 值 或 允许 你 设置 一 个 值 ， 而 是 要 执行 一 些 有 用 的 
zl fF » dumpAllThreads flüiresetPeakThreadCount 就 是 这 类 操作 的 例子 。 


现在 ， 我 们 很 快 将 进入 针对 Cassandra 的 监控 和 管理 。 


ex 


9.22 ”集成 JMX 


让 Cassandra 使 用 JMX 非 常 简单 ， 不 过 还 是 有 一 些 依赖 的 库 。 首 先 要 去 http:/mx4j.sourceforge.net 
下 载 MX4J 库 3.0.1。 你 没准 可 以 看 到 新 的 可 用 版 本 ， 不 过 3.0.1 是 确实 可 用 的 。 


下 载 mx4j 库 之 后 ， 解 压 并 进入 lib 目 录 。 复 制 其 中 的 两 个 JAR 包 mx4j.jar 和 mx4j-tools.jar。 粘贴 
到 《cassandra-home>/lib 目 录 ， 然后 重启 Cassandra。 现 在 ， 其 他 节 2d 可 以 通过 JMX 连 接 并 监控 
己 的 健康 状态 了 ， 甚 至 可 以 通过 它 设置 如 MBean 形 式 暴 露出 来 的 功能 


如 果 你 下 载 了 Cassandra 的 源码 包 ， 只 需要 直接 把 这 两 个 JAR 包 放 入 lib 目 录 ， 并 重新 编译 源码 。 
下 次 启动 Cassandra 的 时 候 ， 你 应 该 可 以 看 到 类 似 下 面 的 输出 : 


INFO 13:37:28,473 Cassandra starting up... 

DEBUG 13:37:28,474 Will try to load mx4j now, if it's in the classpath 
INFO 13:37:28,508 mx4j successfuly loaded 

HttpAdaptor version 3.0.2 started on port 8081 


这 里 ，MX4J 是 我 们 的 JMX 服 务 器 代理 ， 现 在 一 切 已 经 就 绪 ， 来 享用 JMX 带 来 的 好 处 吧 。 


9.3 ”通过 JMX 与 Cassandra 交 互 


现在 ，JMX 支 持 已 经 打开 了 ， 我 们 连接 到 Cassandra 的 JMX 端 口上 。 只 需要 打开 一 个 新 的 终端 ， 
并 键入 如 下 命令 : 


>jconsole 


启动 了 jconsole 后 ， 会 看 到 一 个 类 似 图 9-4 的 登录 界面 。 


O kocal Process: 


Name 


sun.tools jconsole JConsole 
com.xmlmind.xmleditapp.start.Start 


| erg.apache.cassandra.thrift.Cassandrabaemon 


O Remote Process: 


Usage: «hostname-:-«port- OR service:jmx: «protocol»: «sap» 


Username: | Password: | 


图 9-4: ”jconsole 登 录 界面 


在 这 里 ， 如 果 你 要 监控 的 就 是 本 机 ， 可 以 简单 双击 在 本 地 进程 部 分 中 的 org.apache. 
cassandra.thrift.CassandraDaemon。 如 果 你 在 监控 其 他 节点 上 的 Cassandra， 单 击 远程 进程 单 选 
框 ， 之 后 ed CE eld 。Cassandra 的 JMX 默 认 在 8080 端 口 进行 广播 ， 所 以 可 以 
输入 类 似 这 样 的 内 容 ， 然 后 单 击 连 


>lucky:8080 


E? 如 果 无 法 连接 ， 要 确认 一 下 你 是 否 有 其 他 进程 占用 了 8080 端 口 ， 这 个 端口 被 很 多 工具 
使 用 ， 比 如 ApacheTomcat。 


一 旦 连接 到 服务 器 上 ， 默 认 视图 包含 服务 器 状态 的 如 下 四 个 主要 类 别 ， 它 们 会 被 不 断 更 新 。 
。 堆 内 存 
会 显示 出 Cassandra 可 用 的 总 内 存 和 正在 被 使 用 的 内 存 。 
会 显示 出 Cassandra 正 在 使 用 的 活 线程 数量 。 
。 类 
Cassandra 加 载 的 类 的 个 数 。 这 个 数值 对 于 一 个 如 此 强大 的 程序 来 说 ， 是 非常 少 的 ， 
Ene oe dite WebLogic 对 比 一 下 ， 后 者 通常 需要 加 


。 CPU 利用 率 


ts 


以 百分比 的 形式 显示 Cassandra 程 序 当 前 占用 处 理 器 的 情况 。 
你 可 以 在 图 表 中 调整 显示 的 时 间 范 围 。 
如 果 想 要 查看 Cassandra 使 用 Java 堆 和 其 他 内 存 的 细节 情况 ， 可 以 单 击 Memory 标 签 。 通 过 在 下 拉 
列表 中 选择 合适 的 显示 单位 ， 你 可 以 细致 地 查看 Cassandra 在 其 分 度 的 内 存 占 用 情况 。 如 果 你 认 
为 必要 ， 还 可 以 (请求 ) 强制 垃圾 回收 。 
可 以 同时 连接 到 多 个 JMX 代 理 。 只 要 在 菜单 中 选择 File > New Connection... 并 重复 前 面 的 步骤 ， 
就 可 以 连接 到 下 一 个 Cassandra 节 点 ， 同 时 查看 多 个 服务 器 。 
9.4 Cassandra] MBean 
一 旦 你 用 JConsole 或 其 他 JMX 代 理 连 接 上 了 Cassandra， 就 可 以 用 它 暴 露出 来 的 MBean 对 它 进 
管理 了 。 要 做 到 这 点 ， 单 击 JConsole 的 MBeans 标 签 。 除 了 标准 的 Java MBean， 还 有 很 多 
Cassandra 包 也 包含 了 可 管理 bean ， 按照 包 名 排序 ，j 这 些 包 以 org.apache.cassandra F% ° 
我 们 不 会 在 这 里 进入 到 每 个 类 的 细节 ， 但 会 看 其 中 一 些 我 们 感 兴趣 的 。 
Cassandra 中 的 许多 类 都 作为 MBean 暴 露出 来 ， 这 意味 着 它们 实现 了 一 个 定制 接口 ， 这 个 接口 描 
述 了 需要 实现 且 JMX 代 理 为 其 TRIE E AMen R4 式 都 是 一 样 的 ， 我 会 用 
一 个 简单 的 类 作为 例子 。 如 果 你 希望 让 还 不 支持 JMX 的 东西 支持 JMX， 按 照 这 个 通用 的 框架 进 
行 就 可 以 了 ° 
十 于 这 个 例子 ， 我 们 来 看 看 Cassandra 和 的 StorageService 是 如 何 使 用 MBean 的 。 这 里 是 
StorageServiceMBean 类 的 部 分 定义 ， 为 了 简洁 起 见 ， 一 些 操 作 被 省 略 了 : 
public interface StorageServiceMBean 


public Set&ltString» getLiveNodes(); 


throws IOException; 
public void removeToken(String token); 


Mss 
} 


public void forceTableFlush(String tableName, String... 


public Set&ltString» getUnreachableNodes(); 


columnFamilies) 


可 以 看 到 ， 从 这 个 MBean 的 接口 定义 看 不 


口 ， 这 些 操作 将 暴露 给 JMX，StorageService 的 实现 必须 支持 它们 。 这 通常 意味 着 需要 维护 
附加 的 元 数据 信息 ， 用 于 文 持 这 些 的 操作 。 
StorageService 类 实现 了 这 个 接 于 是 必须 自己 直接 支持 JMX 。 一 致 性 管理 器 域 有 一 个 


java.util.concurrent. ExecutorService 类 型 


的 引用 ， 


什么 玄机 。 这 只 是 一 个 常规 的 定义 了 一 些 操 作 的 接 


不 过 ， 实 际 的 实现 类 型 是 


org.apache.cassandra.concurrent.JMXEnabledThreadPool- Executor 类 型 的 。 


private ExecutorService consistencyManager_ 
new JMXEnabledThreadPoolExecutor 


(DatabaseDescriptor.getConsistencyThreads(), 
StageManager .KEEPALIVE, 


TimeUnit.SECONDS, 
new LinkedBlockingQueue(), 


DatabaseDescriptor.getConsistencyThreads(), 


new NamedThreadFactory ("CONSISTENCY -MANAGER")) ; 


JMXEnabledThreadPoolExecutor XE f JMXEnabledThreadPoolExecutor-MBean 
接口 ， 因 而 也 实现 了 org.apache.cassandra.concurrent .IExecutor- MBean, 所 
以 ， 所 有 使 用 线程 池 的 Cassandra 类 都 可 以 暴露 同样 的 操作 给 JMX。 我 们 可 以 在 
JMXEnabledThreadPoolExecutor 里 看 到 Cassandra 是 如 何 支 持 JMX 的 。 


执行 器 池 在 它 的 构造 器 里 向 平台 MBean 服 务 器 注册 自己 ， 如 下 : 


public JMXEnabledThreadPoolExecutor(int corePoolSize, 
int maximumPoolSize, 
long keepAliveTime, 
TimeUnit unit, 
BlockingQueue&ltRunnable» workQueue, 
NamedThreadFactory threadFactory) 


t 
super(corePoolSize, maximumPoolSize, keepAliveTime, unit, workQueue, 
threadFactory); 
super.prestartAllCoreThreads(); 


MBeanServer mbs - ManagementFactory.getPlatformMBeanServer(); 
mbeanName = "org.apache.cassandra.concurrent:type-z" + threadFactory.id; 
try 


mbs.registerMBean(this, new ObjectName(mbeanName)); 


} 
catch (Exception e) 


throw new RuntimeException(e); 


NI 


XH, OPE HAS aS LE BUNTEJDK ERA JIRAS E * MBeanti íi pe 然后 注册 到 平台 Mbean 服 务 


ELI] 


器 上 ， 这 样 ，MBean 就 知道 要 监控 它 ， 并 可 以 通过 代理 进行 管理 


| ， 


为 了 保持 系统 清洁 ， 在 JMXEnabledThreadPoolExecutor 关闭 的 时 候 ， 这 个 类 也 会 把 自己 
从 MBean 服 务 器 注销 : 


private void unregisterMBean() 


try 


ManagementFactory.getPlatformMBeanServer( ).unregisterMBean 


(new ObjectName (mbeanName) ) 
catch (Exception e) 


throw new RuntimeException(e); 


} 
} 


n StorageService 类 也 会 为 自己 本 地 维护 的 JMX 属 性 向 MBean 服 务 器 进行 注册 和 注 
肖 。 这 个 类 会 做 它 本 身 要 做 的 所 有 工作 ， 然 后 再 实现 那些 专门 为 了 向 MBean 服 务 器 提供 信息 的 
方法 m 下 面 是 StorageService 实现 的 getUnreachableNodes 操作 » 


£ 


public Set&ltString» getUnreachableNodes() 


return stringify(Gossiper.instance.getUnreachableMembers()); 


Gossiper 类 是 一 个 维护 IP 地 址 列表 的 单 例 ， 包 含 那 些 和 本 心跳 信息 的 节点 的 地 
址 ， 所 以 ， 当 你 在 JIMX 代 理 中 调用 getUnreachableNodes 方法 时 ， 它 会 调 


TH 


StorageService 的 MBean 方 法 ， 而 StorageService 则 作为 代理 ， 调 用 Gossiper 类 的 方 
法 ， 后 者 返回 不 可 达 的 IP 地 址 ， 并 包装 在 一 个 新 的 集合 中 ， 这 样 调 用 者 就 无 法 直接 修改 
Gossiper 里 这 个 列表 的 内 容 了 。 

/* 不 可 达成 员 组 */ 


private Set unreachableEndpoints = 
new ConcurrentSkipListSet(inetcomparator); 


I: 
public Set getUnreachableMembers() 


return new HashSet(unreachableEndpoints ); 


} 


M (也 就 是 JConsole) 中 打开 这 个 方法 的 时 候 ， 可 能 很 欣慰 地 看 到 这 个 集合 是 空 
的 ， 没 有 不 可 达 节 点 。 如 果 有 不 可 达 节 点 ， 它们 的 下地 址 将 会 出 现在 Value 域 中 ， 如 图 9-5 所 示 。 


x Java ORUM & Management Console 
inectio i He 


panzar rgapache-rassandra thric ssardra Dr 


Overview | Memory | Threads Classes VM — T MBeans D 
+) |Mimplementation Attribute value 

+] Server | z jif 
+] com.sun.management |Name |Value 中 
+) java.lang ünreschatleNodes [8] | 
+) java.util.logging | 
因 org.apache.cassandra.concurrent |Befresh 


四 org.apache.cassandra.db 
|+] org.apache.cassandra.gms 
[=] org.apache.cassandra,service 


-MBeanAttributelnfo 


Value 
=) ® StorageService 
=) Attributes UnreachableNodes 
Token Description Attribute exposed for management 
Load Readable itrue 
LoadString -| [Writable false 
LoadMap Is false — | 
LiveNodes [Type java.util.Set *| 
CurrentGenerationNumber Descriptor 
OperationMode ] | 
| Operations pame pues 一 | 
=| ® StreamingService 
+ Attributes 
*| Operations 
[+] system 
B | 
| ie; pid: 4427 org.apache.cassandra.thrift.Cassandra... | 


图 9-5: ”StorageService 的 不 可 达 节 点 属性 
在 接 下 来 的 小 节 中 ， 我 们 将 逐个 包 地 看 看 可 以 使 用 JMX 来 监控 和 管理 哪些 特性 。 


9.4.1 org.apache.cassandra.concurrent 


个 包 提 供 了 Cassandra 的 线程 和 流 相关 的 功能 。 因 而 ， 这 里 有 分 阶段 事件 驱动 架构 (SEDA) 
类 、 gossiper ` 平衡 器 和 用 于 刷 写 memtable 中 数据 的 类 。 


这 些 MBean 大 部 分 只 允许 你 查看 属性 。 如 果 你 怀疑 Cassandra 环 上 有 数据 写 入 问题 或 节点 不 均衡 
的 问题 ， 可 以 从 这 里 开始 。 


按照 SEDA 的 架构 ，Cassandra 的 每 个 阶段 都 会 暴露 自己 的 MBean。 这 意味 着 你 可 以 迅速 判断 出 ， 
在 一 个 特定 时 刻 处 于 特定 阶段 的 对 象 有 多 少 个 。 这 些 阶段 包括 : 


e ERINE 
。 TENE 
。 响应 阶段 


。 行 改动 阶段 (用 于 删除 和 更 新 ) 
了 读 取 阶段 


D 


。 流 阶段 


对 于 每 个 阶段 ， 你 都 可 以 看 到 活动 的 、 完 成 的 和 等 待 中 的 任务 数 。 有 些 阶段 ， 在 读 写 数据 时 ， 
维护 了 它们 上 自己 的 线程 池 ， 而 且 MBean 人 允许 你 看 于 pos 尺寸 。 所 有 阶段 对 象 都 只 暴露 属 
性 ， 不 允许 进行 任何 操作 。 


9.4.2 org.apache.cassandra.db 


这 个 包 a 它们 作为 MBean 暴 露 
列 族 存 储 、Commit Log， 以 及 压 紧 管理 


你 可 以 看 到 Cassandra 维 护 的 各 种 缓存 的 信息 EOM EUR D EC 用 于 存放 
键 、 行 和 迁移 的 位 置 。 缓 存 显示 的 信息 包括 缓存 的 当前 太 寸 、 容 量 、 缓 存 请 求 数量 、 ~、 缓存 全 最 
数量 以 及 近期 的 缓存 行为 。 


列 族 存储 是 另 一 组 MBean， 它 们 不 仅 提 供 更 丰富 的 属性 值 ， 也 允许 进行 一 些 管 理 操作 。 它 们 提 
供 memtable、SSTable 和 Bloom filter 的 使 用 状况 信息 。 你 可 以 进行 的 操作 包括 强制 刷新 
memtable、 通 过 调用 CompactionManager 类 的 forceMajorCcompaction 方法 发 起 主 压 紧 ， 
或 使 行 缓存 无 效 。 


这 里 有 一 组 关于 读 写 数据 的 有 用 的 统计 信息 ， 位 于 ColumnFamilyStores > system > 
Schema bean 之 中 : 


。 总 读 计 数 
这 是 Cassandra 所 进行 过 的 读 操作 的 总 数 ， 可 以 从 ReadCount 属性 得 到 。 
e 近期 读 时 延 


可 以 从 RecentReadLatencyMicros 属性 读 到 这 个 数值 (单位 为 毫秒 ) 还 可 以 查看 
TotalReadLatencyMicros 属性 ， 总 的 读数 量 Cie ERR 可 以 得 到 这 个 数值 


如 采 你 发 现 性 能 正在 下 降 ， 可 以 方便 地 通过 这 些 统计 信息 进行 分 析 。 它 们 同时 也 展示 了 
ne 以 做 到 多 快 。 比 如 ， 在 我 的 8 核 服 务 器 上 ， 在 小 数据 库 中 ， 简 单 值 的 写 时 延 可 以 达到 
92 毫 秒 。 


这 组 MBean 还 提供 了 压 紧 管理 器 的 数据 ， 包 括 正在 进行 压 紧 的 进程 中 的 总 字 节 数 和 历史 上 总 共 
WERF TIC 


来 。 这 些 类 包括 缓存 、 


r 
LL 


9.4.3 org.apache.cassandra.gms 


包 有 一 个 提供 了 三 个 操作 的 MBean: PeREBIE SIDON, KARRA EAE RARER 
EM 默认 为 8。 


9.4.4 org.apache.cassandra.service 


service 包 提供 了 
Cassandra 操 


的 


核心 ， 


时 间 


ES 


$21 


1. StorageService 


Cassandra 是 一 个 数据 库 ， 所 以 它 本 质 上 是 一 个 非常 复杂 的 存储 程序 ， 
候 ， 应 该 看 的 第 一 个 地 方 就 是 Storag 


OperationMode , 


些 核心 成 员 。 


E] IE, 


当 你 遇 


eService MBean。 这 个 


如 果 


切 进行 得 : 


“ 滑 顺 利 ， 这 个 值 应 该 是 normal 


leaving ` joining ` decommissioned 和 client) 。 


MBean 人 允许 


你 检查 


其 


UN 


( 


[ES 


两 个 bean: StorageService fliStreamingService 。 因 为 这 些 类 是 


它们 暴露 了 最 多 的 操作 ， 给 了 你 相当 多 的 外 部 控制 手段 。 让 我 们 用 一 些 


到 问题 的 时 
他 可 能 的 状态 是 


你 还 可 以 查看 当前 集群 的 活 节 点 与 不 可 达 节 点 。 如 果 有 市 点 不 可 达 ，Cassandra 会 在 
UnreachableNodes 属性 中 告诉 你 它们 的 也 地 址 。 这 个 bean 还 提供 了 很 多 其 他 标准 的 维护 操 
个， 理解 这 些 可 用 操作 对 于 保持 集群 处 于 健康 状态 非常 重要 。 我 建议 你 亲 目 看 一 下 这 个 bean 的 
t 码 ， 当 然 ， 这 里 我 也 会 特别 介绍 一 些 重要 的 维护 操作 。 

如 果 你 希望 在 运行 时 改变 Cassandra 的 日 志 级 别 而 不 中 断 服务 〈 就 像 开 始 的 通用 例子 一 样 ) ， 可 
以 调用 setLog4jLevel(String classQualifier, String level) 方 法。 例如 ,为 了 
解决 某 个 问题 ， 将 Cassandra 的 日 志 级 别 设置 为 了 debug。 你 可 以 使 用 这 里 提供 的 一 些 方法 来 修复 
本题 ， 之 后 ， 准 备 将 系统 日 EE LIS WES 一 个 输出 比较 少 的 级 别 。 这 样 ， 你 需要 在 JConsole 里 进 
入 到 StorageService MBean。 我 们 将 改变 一 个 输出 特别 多 的 类 的 值 : 

LoadDisseminatior 。 这 个 操作 的 第 一 个 参数 就 是 你 要 修改 日 志 级 别 的 类 的 名 字 ， 第 二 个 参 
数 是 你 希望 设置 的 日 志 级 别 。 输 入 
org.apache.cassandra.service.LoadDisseminator 和 INFO ， 然 后 单 击 写 有 
setLog4jLevel 的 按钮 。 你 将 看 到 如 下 输出 日 志 (假设 日 志 级 别 已 经 是 debug 了 ) : 


DEBUG 17:17:30,515 Disseminating load info ... 
INFO 17:17:42,001 set log level to INFO for classes under 


'org.apache.cassandra.service.Load 


Disseminator' 


(if the level doesn't look like 'INFO' then log4j couldn't parse 'INFO') 


从 输 


出 


在 调 
Te 


要 了 解 每 个 节点 的 负载 ， 


IP 地 址 ， 值 为 对 应 


DUE 


你 在 


找 


byte[] key) 操作 ， 传 递 的 参数 


个 4 


1 可 以 看 到 ，Cassandra 记 录 了 


一 个 加 载 info 的 语句 ， 这 是 


jsetLog4jLevel 操作 之 


ay 


我 们 只 得 到 INFO 输出 ， 而 没 


H, 


可 以 
节点 的 负载 。 


标定 的 键 值 


应 键 值 的 节点 的 卫 地 址 列表 。 


使 


getLoadMap( ) 方法 ， 这 个 方法 返 


H 


因为 之 前 的 日 
debug 级 别 的 日 


志 级 别 


E 


xEdebug ° 


志 输 出 语句 


回 一 个 Java Map， 键 值 为 


以 使 用 getNaturalEndpoints(String table, 
是 表 名 和 所 要 查找 端点 的 键 值 ， 方 法 将 返回 一 个 负责 存放 对 


bs 还 可 以 使 用 getRangeToEndpointMap 操作 ， 获 取 一 个 区 间 到 端点 的 映射 ， 描 绘 出 环 的 拓 

如 果 要 废弃 一 个 服务 器 ， 也 可 以 使 用 这 个 MBean。 调 用 decommission( ) 操作 ， 这 样 当 前 节点 

的 数据 就 会 自动 地 传送 到 其 他 节点 上 ， 并 让 当前 节点 退出 服务 。 

如 果 你 足够 勇敢 ， 可 以 对 一 个 给 定 keyspace 中 的 给 定 列 族 调 用 truncate 操 作 。 如 果 所 有 市 点 都 可 
那么 这 个 操作 将 删除 列 族 中 的 所 有 数据 ， 只 留 下 定义 。 

如 果 你 通过 其 他 MBean 发 现 ， 市 点 已 经 非常 不 平衡 了 ， 那 么 进 和 crap DENS 是 使 

loadBalance() 操作 。 不 平衡 随时 可 能 发 生 ， 一 些 节 点 的 数据 可 能 会 过 于 热门 。 这 个 操作 将 


li 


会 导致 当前 的 节点 分 出 一 部 分 数据 给 邻居 节点 ， 之 后 ， 它 会 自 举 并 从 环 上 负载 最 
接收 该 节点 负责 的 数据 。 


2. StreamingService 


DRESS: 


HW 


org.cassandra.streaming.StreamingServiceMBean 定义 了 如 下 接口 : 


public interface StreamingServiceMBean 
public Set&ltInetAddress> getStreamDestinations(); 
public List&ltString» getOutgoingFiles(String host) throws IOException; 
public Set&ltInetAddress» getStreamSources(); 
public List&ltString» getIncomingFiles(String host) throws IOException; 


public String getStatus(); 


} 


这 里 有 两 个 基本 概念 : 流 源 头 和 流 目 的 。 每 个 市 点 可 以 将 它 的 数据 作为 流 发 送 给 男 一 个 节点 ， 
以 进行 负载 均衡 ， 这 个 类 就 支持 这 些 操 作 。 这 些 MBean 方 法 让 你 看 到 集群 中 有 关 数 据 在 节点 间 
流动 的 一 个 视图 。 


getStatus 方法 不 是 一 系列 可 能 状态 的 枚 举 值 。 它 会 返回 一 个 字符 串 ， 形 式 是 
ReceivingFrom: [node] SE [node] ° 


UD 


StreamingService MBean 与 StorageService MBean 经 常 在 一 起 使 用 ， 如 果 你 认为 一 个 本 
该 接收 数据 的 节点 没有 接收 数据 ， 或 者 一 个 节点 的 负载 不 均衡 甚至 是 宕 机 了 ， 这 两 个 服务 可 以 
在 一 起 给 你 丰富 的 可 视 信 息 ， 帮助 你 发 现 集群 中 在 某 个 时 候 到 底 发 生 了 什么 。 


9.5 ”定制 Cassandra 的 MBean 


如 果 你 希望 添 T M 可 以 自己 进行 这 项 工作 。 我 们 来 快速 地 写 一 个 简单 
的 MBean， 来 看 看 这 是 如 何 做 到 的 。 这 并 不 困难 。 


首先 我 们 要 获取 源 代码 ， 并 在 要 包装 的 Cassandra 源 文件 FBE T MBeanfz H ° 我 们 的 
MBean 将 会 返回 Cassamdra API 的 当前 版 本 ， 目 前 Cassandra 不 支持 这 项 功能 。 这 个 MBean 看 起 来 
就 像 这 样 : 


[un 


JH 


package org.apache.cassandra.thrift; 


public interface CassandraServerMBean { 
public String getVersion(); 
H 


现在 ， 需 要 打开 CassandraServer.java 的 源 代码 ， 让 它 实 现 我 们 的 MBean 接 钩 住 JMX 服 务 
器 。 最 后 ， 我 们 会 具体 实现 这 个 方法 。Thrift 生 成 了 一 个 可 以 从 命 令 行 界面 获取 的 版 本 号 ， 我 们 
会 直接 复 用 它 。 新 的 CassandraServer.java 类 会 成 为 这 样 : 


package org.apache.cassandra.thrift; 


import javax.management.MBeanServer; 
import javax.management.ObjectName; 


import org.apache.cassandra.auth.AllowAllAuthenticator; 
import org.apache.cassandra.concurrent.StageManager; 


// 其 他 import 


public class CassandraServer implements Cassandra.Iface, CassandraServerMBean 


public static final String MBEAN OBJECT NAME = 
"org.apache.cassandra.service:type-CassandraService"; 


public CassandraServer() 
1 


storageService - StorageService.instance; 


final MBeanServer mbs = ManagementFactory.getPlatformMBeanServer(); 
try 


mbs.registerMBean(this, new ObjectName(MBEAN OBJECT NAME)); 


catch (Exception e) 
throw new RuntimeException(e); 
} 
// 其 他 的 服务 器 实现 代码 


// MBean 钧 子 代码 
public String getVersion() { 


String version - null; 

try ( 
version - describe version(); 

) catch(TException e) { 
logger.warn("Cassandra server version unavailable: ", e.getMessage()); 
version - "unavailable"; 


} 


return version; 


我 们 实现 了 前 面 给 出 的 接口 ， 并 将 Cassandra 服 务 器 与 管理 平台 连接 到 了 一 起 。 现 在 需要 做 的 就 
是 打开 一 个 终端 ， 进 入 到 目录 ， 使 用 $ ant 命令 编译 代码 ， 然 后 启动 服务 器 。 之 后 ， 运 行 
jconsole ， 连 接 到 服务 器 实例 。 如 图 9-6 所 示 ， 你 应 该 可 以 看 到 这 个 属性 已 经 可 用 了 。 


1drathrnft CassandraDaermor 
Overview Threads Classes VM Summary eeans 
-||Mimplementation -Attribute value 
= € MBeanServerDelegate 
| Attributes |Name [Value 

MBeanServerid ersion jg.1.0 
SpecificationName um 
SpecificationVersion Refres 
Specificationvendor 


ImplementationName | MBeanAttributelnfo 


ImplementationVersion Har 
Implementationvendor 
+) Notifications 
|| Server 一 一 - 
[+] com.sun.management Description Attribute exposed for management 
[+ java.lang Readable true 
[+] java.util.logging -| [Writable false 
|t org.apache.cassandra.concurrent false 
应 org.apache.cassandra.db java lang.String 
[+] org.apache.cassandra.gms L 
|=] org.apache.cassandra.service Descriptor 
= ® CassandraService 
=) Attributes 


出 8 StorageService 
+ @ StreamingService 
|**| system 


图 9-6: 定制 的 MBean 提 供 了 Cassandra 的 API 版 本 号 
这 里 的 8.1.0 是 作为 一 个 Thrift 常 量 而 生成 的 API 版 本 号 ， 不 必 和 Cassandra 版 本 号 相对 应 。 


一 全 dps 


你 在 修改 源 代 码 ， 但 
本 和 从 代码 仓库 中 检 出 的 版 本 的 差异 


1 


可 以 把 比较 结果 输出 到 一 个 新 文件 : 


是 不 确定 修改 了 什么 ， 可 以 通过 Subversion 来 检 
。 使 用 svn diff 命令 就 可 以 看 到 两 个 文件 的 变化 ， 


查 本 地 工作 副 
并 


eben@morpheus:~$ svn diff 


/home/eben/cassandra/dist/trunk-svn-1/src/java/org/apache/cassandra/thrift/CassandraServer.java 
/home/eben/cassandra/dist/trunk-svn-2/src/java/org/apache/cassandra/thrift/CassandraServer.java 


>> /home/eben/CassandraServer.patch 


9.6 “运行 时 分 析 工 具 


这 里 ， 


JMX 暴 露出 来 的 特 


我 们 不 需要 谈论 太 多 关于 JMX 的 细节 ， 
性 是 非常 有 帮助 的 。 


可 以 


于 发 现 和 定位 内 存 》 
很 年 轻 ， 所 以 现在 还 没有 其 


EURYS ` 


` aA 
z 里 的 


你 正在 
H 个 名 为 . 
形式 ， 按 照 执行 顺 


但 如 


管理 它 ， 了 解 它 通 过 


要 理解 Cassandra 并 


同样 


了 解 Java 直 
分 析 挂 起 的 进程 等 


他 的 专门 针对 Cassandra 的 第 三 方 分 析 工 具 。 


DR, TAERAA 


命令 行 接 


9.6.1 ”使 用 JMX 和 JHAT 进 行 堆 分 析 


十 么 


原 


iij Cassandra] 
因 不 太 确 定 Cassandra 的 工作 状况 ， 这 些 JavaE 


HH 


Cassandra zc [it] 


要 更 好 地 理 角 
"mái 为 dumpHeap 的 方法 。 
字 。 这 个 bean 人 允许 
写 入 到 你 指 


很 多 


用 的 时 候 ， 经 党 


0 us 


也 很 有 好 处 ， 它 们 
而 且 还 


接 提 供 的 一 些 工 具 
。 因 为 Cassandra 是 一 个 Java 应 用 ， 


口 对 Cassandra 执 行 了 什么 命令 
cassandra.history 的 隐藏 文件 。 它 类 似 于 Bash shell 的 命令 历 令 历 ra 
序列 出 了 所 有 执行 过 的 命令 。 非 常 有 用 ! 


可 以 查看 归属 
以 纯 文 本 的 


BUB 


如 果 你 不 在 主干 上 ， 
具 可 以 帮助 你 。 


内 存 ， 而 且 


(JHAT) 


垃圾 回收 和 主 压 
E 用 HPROE 二 进 抽 


。JHAT 使 


文 个 格式 用 


d 


要 获得 堆 转 储 ， 只 
展开 Operations 树 视图 ， 单 让 


bean, 


堆 对 象 的 进 | 


可 以 使 


定 的 文件 中 了 。 不 过 ， 


THE 


和 CPU 的 性 能 分 析 。 我 们 不 角 


这 是 


F 你 指定 一 个 希望 


引用。 你 可 以 在 使 


玉 紧 对 性 能 有 很 


大 的 冲击 。 这 里 ， 一 个 很 有 
格式 创建 网 页 ， 允 许 你 浏览 堆 中 的 
这 个 JDK 提 供 的 工具 的 同时 ， 从 JMX 获 


jcom. sun ,management ,HotSpotDiagnostic bean。 它 提供 了 
在 MBean 中 操作 的 名 字 ， 所 以 JMX 代 理 的 按钮 上 也 有 这 个 名 
巴 堆 转 储 到 的 目标 文件 名 ， 然 后 单 击 按钮 ， zi 
dumpHeap 操作 写 出 的 堆 状 态 文件 是 HPROF 二 进 制 格式 的 ， 


它 就 会 将 堆 信 


直接 看 


而 需要 使 用 JHAT 来 查看 数 


进 制 文件 ， 


要 运行 JConsole， 并 找到 com. sun.management .HotSpot-Diagnostic 


对 路 径 名 ， 如 图 9-7 所 示 。 


和 dumpHeap 操作 。 输 入 你 希望 转 储 到 的 目 


标 文件 的 相对 或 绝 


x Java Monitoring & Management Console 


c andra-thrift-.c3ssandraD3ermo 
Overview Memory "— VMSummary| Meeans P 
+ MI ek ementation [ operation invocation — - -一 | 


[void dumpHeap)| (po /home/eben/heap |. pil true ) 


a 
la dumpHeap [| 
Description dumpHeap 

oncurri | [Impact UNKNOWN L 


la pid: 4427 org.apache.cassandra.thrift.CassandraDaem... | 


图 9-7: 对 Cassandra 节 点 调用 dumpHeap 操 作 


打开 一 个 新 终端 ， 启 动 jconsole。 你 应 该 可 以 看 到 一 个 弹出 框 ， 提 示 说 方法 已 经 成 功 调用 
T 
你 也 可 以 使 用 JDK 附 带 的 jmap 工 具 而 不 使 用 图 形 界面 ， 获 得 堆 转 储 文件 。 首 先 找 到 Cassandraj 进 


程 的 进程 ID。 在 Linux 系 统 中 ， a e 命令 并 查找 java*。 也 就 是 ， 如 果 你 
有 很 多 正在 运行 的 Java 进 程 ， 那 么 可 以 通过 更 精确 地 使 用 grep 查 找 Cassandra 守 护 程序 1 。 


出 类 名 ， 比 ps 命令 更 直观 。 


译注 1: 也 可 以 使 用 JDK 附 带 的 jps 命令 ， 列 出 所 有 Java 进 程 的 ID ， 会 直接 列 


LH 


2. 
Er» 你 可 以 在 Linux 系 统 中 ， 打 开 一 个 终端 ， 如 下 运行 ps 命令 找到 Cassandra 的 进程 ID: 
[S ps -ef | grep "Cassandrapaemm yy | 


有 旦 得 到 Cassandra 的 进程 ID ， 我 们 可 以 使 用 它 来 指定 希望 jmap 工具 进行 快照 的 堆 。 这 有 助 于 
我 们 找 出 持 起 进程 、 定 位 内 存 泄漏 源 等 。 


eben@morpheus:~$ jmap -dump:live,format-b,file-/home/eben/jmapdump.bin 4427 
Dumping heap to /home/eben/jmapdump.bin ... 
Heap dump file created 


现在 已 经 获取 了 堆 数 据 ， 让 我 们 使 用 JHAT 工 具 来 取出 它 。 要 运行 JHAT， 可 以 打开 一 个 终端 ， 输 
入 类 似 如 下 的 内 容 ， 把 我 的 堆 转 出 文件 路 径 蔡 换 成 你 的 ; 


$jhat /home/eben/jmapdump.bin 


这 个 命令 会 运行 相当 一 段 时 间 ， 然 后 输出 类 似 下 面 的 内 容 ， 


Chasing. references, expect GI dOtsi. o eleme xu RR ex erit x In Ie er ie RS Re REED ctae ceu xa e ENA 
Etiminating duplicate references i...2.5nbe ee ktm eee x RR REENE AREKEREKE er ee dl een gas tnn er ee 
Snapshot resolved. 

Started HTTP server on port 7000 

Server is ready. 


现在 ， 服 务 器 已 经 启动 了 ， 我 们 可 以 打开 浏览 器 ， 在 http:Wlocalhost:7000 查看 文件 。 堆 转 储 文件 
是 可 移植 的 ， 在 生成 堆 转 储 之 后 ， 可 以 把 它 放 到 其 他 机 器 上 使 用 JHAT 查 看 。 


A a 


[^ — 一 阵 ， 然后 在 7000 端 口 启动 一 个 Web 服 务 器 (JDK 6 开始 ， 有 一 个 集成 的 
小 型 HTTP 服 务 器 ) ， 你 可 能 需要 关 掉 JConsole 或 其 他 可 能 占用 这 个 端口 的 程序 ， 因 为 这 个 端 
口 是 不 可 配置 的 。 要 确定 端口 是 否 可 用 ， 在 Windows 下 可 以 #ĦH>netstat -o -a, 在 
Linux 下 可 以 使 用 >netstat -0 -a | less。 


要 了 解 更 多 如 何 使 用 JHAT 的 信息 ， 可 以 查看 这 个 页 面 : 


http://java.sun.com/javase/6/docs/technotes/tools/share/jhat.html ? ， 或 通过 jhat -h 来 查看 帮助 信 
Ho 


4D 


Ri E ZEETIhttp://download.oracle.com/javase/6/docs/technotes/tools/share/jhat.html ° 


译注 2: 由 于 被 Oracle 收 购 ， 页 


生成 的 网 站 提供 了 一 些 选项 ， 可 以 限 第 
。 所 有 类 ， 包 括 Java 平 台 的 类 ; 
。 所 有 类 ， 不 包括 Java 平 台 类 ; 
。 根 引用 集 (root set) 的 所 有 成 
。 所 有 类 的 实例 计数 ; 

。 堆 直方 图 ， 显 示 所 有 类 和 它们 的 创建 实例 数 与 总 尺寸 ; 
e 等 待 finalizer 执 行 的 类 。 


如 果 Cassandra 有 问题 ， 就 会 创建 一 个 hprof 文 件 ， 同 时 我 们 可 以 看 到 如 下 输出 : 


SS, 


查阅 的 范围 : 


x 


, 


DEBUG 16:13:17,640 Disseminating load info ... 
java.lang.OutOfMemoryError: Java heap space 
Dumping heap to java pid21279.hprof ... 


Heap dump file created [2766589 bytes in 0.032 secs] 
ERROR 16:13:34,369 Fatal exception in thread Thread[pool-1-thread-1,5,main] 
java.lang.OutOfMemoryError: Java heap space 
at org.apache.thrift.protocol.TBinaryProtocol.readStringBody(TBinaryProtocol 
.java:296) 
at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol 
.java:203) 
at org.apache.cassandra.thrift.Cassandra$Processor.process(Cassandra.java:1113) 


文件 将 会 存放 在 <cassandra-home> 目 录 中 ， 你 可 以 这 样 打开 它 : 


De 会 分 析 这 个 文件 ， 然 后 启动 服务 器 ， 你 束 可 以 通过 浏览 器 查看 有 崩溃 时 所 有 对 象 的 状态 


此 外 ， 你 还 可 以 在 HTML 表 单 中 执行 一 个 堆 数 据 的 查询 ， 来 创建 定制 化 视图 。 对 象 查询 语言 
(OQL) 是 一 种 格式 和 SQL 类 似 的 用 于 查询 堆 转 储 文件 的 简单 语言 ， 可 以 找 出 和 指定 属性 相 匹 
配 的 对 象 。 图 9-8 中 的 查询 只 人 允许 我 们 查找 那些 属于 Cassandra 的 org,apache . cassandra. db 
包 的 对 象 。 


了 


N 


D Object Query Language (0, * 
€ Q fh Yr htpi/hocahost 


Object Query mess (OQL) query 


Al Classes (excluding platform) OQL Help 


select filter(heap.classes(), "/org.apache.cassandra.db./ (it. mi 


MAS — Á— di 


org apache cassandra db Co org. ap. , class 
org apache cassandra db. DesoratedE cst], class c PART eam scale class ~ 
B Object at os272e0 him ~ O domador.. X 


图 9-8: 在 JHAT 中 使 用 对 象 查询 语言 ， 过 滤 出 db 包 中 的 Cassandra 类 
一 旦 查询 返回 结果 ， 你 就 可 以 单 击 类 名 来 查看 关于 它 的 详细 信息 。 


你 也 可 以 针对 更 具体 的 对 象 属性 进行 查询 。 比 如 ， 你 可 能 希望 只 过 滤 出 有 200 多 个 字符 的 字符 串 
的 对 象 用 OQL， 可 以 使 用 下 看 这 样 的 语句 : 


HE 


select s from java.lang.String s where s.count »- 200 


Sa 关于 对 象 查询 语言 的 更 多 细节 超出 了 本 书 的 范围 ， 不 过 它 并 不 难 使 用 。JHAT 工 具 中 有 
很 多 它 的 例子 ， 而 且 其 格式 与 SQL 很 类 似 。 还 有 一 些 很 不 错 的 博客 文章 介绍 了 如 何 使 用 它 ， 
特别 是 A. Sundararajan 的 博客 ， 位 于 
http://blogs.sun.com/sundararajan/entry/querying java heap. with oql ° 


在 这 个 例子 里 ， 我 们 可 以 使 用 查询 结果 来 查看 字符 串 里 的 classpath 信 息 : 


Object at 0x3a272e0 


instance of -ea -Xdebug 

-Xrunjdwp:transport-dt socket,serverz-y,address-8888, suspend-n 
-Xmsi28m -Xmx1G -XX:TargetSurvivorRatio-90 -XX:-«AggressiveOpts 
-XX:*UseParNewGC -XX:-«UseConcMarkSweepGC -XX:-«CMSParallelRemarkEnabled 
-XX:*HeapDumpOnOutOfMemoryError 

-XX:SurvivorRatio-128 -XX:MaxTenuringThreshold-0 
-Dcom.sun.management.jmxremote.port-8080 
-Dcom.sun.management.jmxremote.ssl-false 
-Dcom.sun.management.jmxremote.authenticate-false -Dcassandra 
-Dstorage-config-/opt/apache-cassandra-0.6.2/0.6.2-source/conf 
-Dcassandra-foreground-yes (24 bytes) 


是 一 个 迁 回 查看 classpath 开 关 的 方法 ， 不 过 它 提供 了 一 些 关 于 如 何 使 用 JMap 和 JHAT 查 找 你 感 
兴趣 的 运行 时 状态 的 思路 。 


9.6.2 ”发 现 线程 问题 


如 果 你 从 JConsole 发 现 系统 变 慢 ， 或 是 无 法 控制 的 资源 消耗 增长 ， 可 能 希望 了 解 当 前 的 线程 行 
为 。Cassandra 大 量 使 用 了 线程 池 和 Jave 的 并 发 库 所 以 ， 了 解 它们 的 状态 是 调试 的 一 项 重要 工 


s 


o 


在 Jconsole 中 ， 


个 来 查看 调用 栈 


就 可 外 


而 垃圾 回收 3 
看 线程 状态 。 


并 没有 释放 上 


— 4 f£Javarh, 


R i Thread PR 
这 个 视图 还 将 显 


e Zr fl ii 
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线程 和 线程 池 的 
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WEF 


器 没有 正 常 释放 资 
线程 开始 排队 进入 stuck 的 状态 ， 服 务 器 就 将 最 终 裔 演 


HHR, 


“stuck” 线 程 是 
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禹 源 的 信号 ， 价 


线程 stuck 的 问题 ， 


HINLHITE— 


用 绕 这 个 线程 


VEL 


列表 ， 你 可 以 单 击 
可 线程 处 于 stuck 状 态 ， 这 


始 


:将 会 


贵 了 。 如 果 你 正在 


A o MRE 
的 堆 占 用 增长 ， 


你 可 


个 超时 周期 后 ， 


是 说 ， 


ERE, É 


E o 
性 能 


这 会 由 


MH 
日 上 E83 
开始 受到 影 


最 后 ， 如 果 你 关心 
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新 被 放 回 


互相 死 锁 的 线程 ， 


9.7 ”健康 检查 
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节 ， 学 习 了 Cassandra 通 过 MBean 服 务 器 提供 的 


看 Cassandra 集 群 中 所 发 生 的 事 ， 并 


一 般 数 据 库 


此 此 确保 集群 


T3 


工作 没有 
到 线程 池 中 ， 


也 就 是 说 者 


可 以 和 


以 检查 Jconsole 的 线程 部 分 来 查 


将 该 线程 放 到 了 * ‘stuck” 状 态 ， 也 就 


完成 ， 


那么 这 个 线程 将 永远 也 无 法 


完成 它 


新 的 工作 的 可 | 


ls b 


线程 


的 节点 处 于 健康 状态 。 


令 查 org .apache.cassandra.concurrent .ROW_ MUTATION. - STAGE MBean ° 
首长 ， 这 意味 着 写 操作 (MA ` EY 


令 查 org .apache.cassandra.concurrent .ROW_READ_STAGE MBean ° 


持续 增长 的 等 待 任 


样 ， 


上 扩展 
样 


检查 


小 结 
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且 问 题 开 
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始 了 ， 


了 监控 和 管理 Cassandra 集 
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的 Java 代 码 


自己 使 


图 景 。 使 月 
象 查 询 语言 Fi 


jMBean, 


它 就 会 持续 急 


有 击 Detect Deadlock 按 钮 。 
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这 里 你 
成 功 完 
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这 意味 着 读 请 求 在 不 断 进 入 并 成 功 完成 。 
FP 的 PendingTasks 属性 的 值 不 会 增长 太 高 。 即 


全 这 个 数值 不 是 很 小 ， 


了 麻烦 。 和 


恶化 。 


EIE 


) 或 是 水 平 扩展 OEJUDGts 
并 确保 没有 ERROR 级 别 的 


群 


日 志 报 告 。 


的 方法 。 特 别 地 ， 我 们 计 


三 件 事情 可 以 改善 
新 均衡 ) 


青 况 ， 降 低 


EF 细 介 绍 了 JMX 的 一 些 细 


执行 基本 


发 套件 (JDK) 中 的 工具 


分 析 工 具 (JHAT 


还 有 很 多 其 他 
可 以 加 入 钩子 
又 如 Nagios， 


的 工具 ， 


这 是 一 个 开源 、 免费 而 
是 Mahalo 监 控 Cassandra 环 的 了 


{ 


日 这 


FEJE o 
来 了 


的 对 象 


此 


种 丰富 操作 。 我 们 看 至 
的 管理 任务 。 ADR 
通过 JMX 提 供 新 的 可 监控 与 可 管 
我 们 还 比较 深入 地 学 习 了 如 何 使 用 Java 开 
B Mec ps 
OQL) 查找 具有 我 们 关心 的 属性 


强大 的 维护 监控 工具 ， 


你 希望 的 话 ， 


， 我 们 可 以 对 程序 的 内 存 进行 快照 ， 然 后 使 


N 


如 何 使 用 JConsole 查 
我 们 可 以 使 用 很 少 


T4 


对 


解 Cassandra 运 行 时 对 


此 足够 帮 你 起 步 了 。 你 的 


HZR 


(可 能 已 经 在 使 用 一 个 


比如 OpenNMS (参考 http: //www.opennms.org ) 


日 相当 直接 的 工具 。 


它 有 


M e 


有 直接 连接 JMX 的 优势 ， 而 上 且 


， 这 个 工具 有 JMX 钩 和子。 
这 就 


Kr Mahalo 上 有 一 篇 文章 写 了 它们 是 如 何 集成 Nagios 和 JMX 的 ， 链 接 为 


http://www.mahalo.com/how-to-monitor-cassandra-with-nagios ° 


现在 ， 你 应 该 已 经 准备 好 进行 日 常 维护 了 ， 更 好 地 了 解 了 Cassandra 集 群 ， 并 知道 如 何 进行 一 些 
常规 和 更 细 粒 度 的 调节 工作 以 PEA s 
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我 们 会 介绍 一 些 用 于 保持 Cassandra 健 康 运行 的 东西 。 所 以 ， 带 上 你 的 安全 帆 ， 我 们 
开始 


^ 
b 
pu 


Cassandra El f? 'JNodetool4. F «cassandra-home»/bin H 3 个 命令 行程 序 ， 提 供 了 丰富 的 查 
看 集群 、 了 解 其 行为 并 调整 集群 的 功能 。 通 过 Nodetool， pose 集群 的 有 限 统计 信 
已 ， 查 看 每 个 节点 负责 的 区 间 ， 在 节点 间 移 动 数据 、 退 服 节 点 修复 遇 到 问题 的 节点 。 


di' 
IF 
pat 
i 


-Š E Nodetool 的 很 多 功能 和 JMX 接 口 提供 的 功能 是 重合 的 。 这 是 因为 在 台面 之 下 ，Nodetool 
也 是 使 用 一 个 称 为 NodeProbe 的 辅助 类 来 调用 JMX 的 。 所 以 JMX 是 进行 实际 工作 的 ， 
NodeProbe 用 于 连接 到 JMX 代 理 并 取出 数据 ， 而 NodeCmd 类 用 于 在 交互 式 命令 行 界面 中 展 
现 数据 。 


要 使 用 Nodetool， 需 要 和 Cassandra 本 身 完全 一 样 的 环境 ， 也 就 是 说 ， 它 需要 同样 的 classpath 和 
志文 件 。 


* 命令 行 的 Nodetool 是 org .apache.cassandra.tools.Nodecmd 的 一 个 包装 。 如 果 
你 希望 确切 了 解 它 是 如 何 工 作 的 ， 可 以 查看 该 类 的 源 代码 。 


启动 Nodetool 易 如 反 掌 ， 只 要 打开 一 个 终端 ， 进 入 <cassandra-home> 目 录 ， 并 执行 如 下 命令 : 


$bin/nodetool 


pb 


这 么 直接 运行 会 得 到 错误 输出 ， 不 过 这 也 使 程序 输出 一 组 可 用 的 命令 ， 下 面 就 会 介绍 这 些 命 


10.1 ”获取 环 的 信息 


你 可 以 了 解 到 关于 环 和 环 上 市 点 的 很 多 信和 局 息 ， 这 束 是 本 节 的 内 容 。 你 可 以 获取 一 个 单独 的 节点 
或 是 环 上 所 有 节点 的 基本 信息 


10.1.1 Info 


最 直接 的 方式 就 是 使 用 info 命令 。 它 告诉 Nodetool 连 接 一 个 节点 ， 并 获取 关于 它 当 前 状态 的 基 
本 数据 。 只 要 把 要 查询 的 节点 的 地 址 作为 参数 传 入 即 可 : 


$ bin/nodetool -h 192.168.1.5 info 
134439585115453215112331952664863163581 


Load : 3.93 MB 
Generation No : 1277663698 
Uptime (seconds) : 19639 

Heap Memory (MB) : 36.60 / 1011.25 


这 里 ， 唯 一 可 能 有 疑问 的 内 容 是 “Generation No” 域 。 这 是 每 个 端点 的 心跳 状态 ， 由 Gossiper 
使 用 一 个 时 间 惟 来 维护 o 


10.1.2 Ring 


要 确定 环 上 有 哪些 点， 它们 状态 如 何 ， 可 以 使 用 Nodetool 的 host Mring FX, WTF: 
[S bin/nodetool -host 192.168.1.8 ring | 
它 会 输出 类 似 这 样 的 结果 : 


Address Status Load Range Ring 
41654880048427970483049687892424207188 

192.168.1.5 Up 1.71 KB 20846671262289044293293447172905883342 |&lt-- 

192.168.1.7 Up 2.93 KB 41654880048427970483049687892424207188 |--> 


这 里 ， 我 们 可 以 看 到 环 上 所 有 节点 的 卫 地 址 。 这 个 例子 里 有 两 个 节点 ， 一 个 在 1.5， 另 一 个 在 
1.7， 两 个 节点 的 状态 都 是 up 〈 目 前 可 用 且 可 以 接受 查询 ) 。 其 中 的 load 列 表示 每 个 节点 保存 的 


keyspace 中 的 数据 会 划分 为 区 间 。Cassandra 为 集群 中 的 每 个 节点 分 配 唯 一 的 令 牌 ， 称 为 区 间 令 
牌 (rangetoken) ， 这 决定 了 哪个 键 值 的 主 副 本 会 放 在 这 个 节点 上 。 使 用 ring 开关 进行 查询 得 
到 的 区 间 列 就 是 每 个 节点 负责 的 令 牌 。 


有 一 个 特殊 的 区 间 称 为 “ 折 回 区 间 ” (wrapping range) 。 令 牌 值 最 低 的 节点 在 分 到 其 令 REDA F 
的 所 有 键 值 的 同时 ， 也 拥有 最 大 令 牌 值 之 上 的 令 牌 ， 也 就 是 说 ， 从 最 大 的 值 折 回 到 最 小 的 值 


10.2 ”获取 统计 信息 


Nodetool 还 允许 你 收集 精确 到 数据 级 的 服务 器 状态 统计 信息 。 与 info 开关 相 比 ， 给 出 详细 
叶 多 的 数据 信息 。 有 两 个 基本 的 统计 信息 命令 : cfstats 和 tpstats ， S Te ia | 。 


En 


10.2.1 ”使 用 cfstats 


要 查看 每 个 列 族 数 据 的 概述 信息 ， 可 以 使 用 cfstats 开关 。 这 个 命令 会 给 出 集群 的 
统计 数据 ， 执 行 如 下 Nodetool 命令 〈 当 然 ， 得 把 PP 地 址 替换 成 你 集 稚 
地 址 ) : 


$ bin/nodetool -host 192.168.1.5 cfstats 


这 个 命令 会 产生 类 似 这 样 的 输出 : 


Keyspace: Keyspace1 
Read Count: 13 
Read Latency: 0.3252307692307692 ms. 
Write Count: 3 
Write Latency: 0.13266666666666665 ms. 
Pending Tasks: 0 
Column Family: StandardByUUID1 
SSTable count: 0 
Space used (live): 0 


能 指标 。 
中 的 节点 


L 


TE 


Space Used (total): 0 
Memtable Columns Count: 
Memtable Data Size: 0 


Memtable Switch Count: 0 


Read Count: 


Read Latency: 
Write Count: 


0 
NaN ms. 
0 


这 里 
AE > 


Aa 


p 


从 4 如果 看 到 ] 
着 Cassandra 处 于 资 
数 ， 需 要 o d 
tpstats 命 A 
STAGE (5 A 


里 的 统计 数据 


这 


EY 


SEPA RC 


Write Latency: NaN ms. 
Pending Tasks: 0 

Key cache capacity: 200000 
Key cache size: 0 
Key cache hit rate: 
Row cache: disabled 
Compacted 
Compacted 
Compacted 
Column Family: Standard2 
SSTable count: 1 

Space used (live): 379 
Space used (total): 379 
Memtable Columns Count: 0 
Memtable Data Size: 0 
Memtable Switch Count: 1 
Read Count: 13 

Read Latency: 0.325 ms. 
Write Count: 3 

Write Latency: 0.133 ms. 
Pending Tasks: 0 

Key cache capacity: 1 

Key cache size: 0 
Key cache hit rate: 
Row cache: disabled 
Compacted 
Compacted 
Compacted 


NaN 


row mean size: 0 


NaN 


row mean size: 0 


了 人 简单， 只 截取 了 部 分 输出 ， 
还 可 以 在 Pending Tasks 计 数 ! 


写 总 数 、 缓 存 命 中 率 ， 


row minimum size: 
row maximum size: 


row minimum size: 
row maximum size: 


已 口 


0 
0 


i: 


ET 


天 的 数值 


10.2.2 ”使 用 tpstats 


tpstats 


了 解 线程 


工具 给 出 Cassandra 维 
多 核 的 计算 机 优化 。 而 ] 


XR 


绍 的 那样 ) 
E 哪些 任务 处 于 
意味 着 插入 、 


E} 


等 待 任务 数 ， 特 
ARTERA, IOENI RET 。 如 果 Nodetool 检 查 出 了 很 大 所 


用 JMX 进 行 检查 ， 或 是 (按照 接 下 来 


4 别 是 


十 么 阶段 。 


1 


要 获得 


线程 池 的 统计 信息 ， 可 以 使 


更 新 或 删除 的 评 


jy 


户 的 线程 池 的 信息 
日 ，Cassandra 内 部 采用 
的 行为 和 健康 状态 对 于 Cassandra 维 护 非常 重要 。 


jtpstats 开关 j 


人 快 。 不 可 


A 


它 为 每 个 列 族 生 成 同样 的 统计 信息 。 
看 到 尚未 完成 的 人 有 


你 可 以 查看 读 写 时 


PI 


个 正在 增长 的 等 


E 务 数 。 


竺 任务 数 。 这 可 能 意味 


比如 ， 如 果 
求 进入 束 


否认 ， 


> 


» Cassandra t 53 f 


DNES 


执行 Nodetool， 


等 待 任务 


的 内 容 ) 执行 
民 多 任务 处 于 ROW-MUTATION- 


度 比 Cassandra 的 执行 速度 高 了 。 


这 里 的 负载 非常 低 ， 不 过 写 时 延 I/10 


发 的 ， 
架构 (SEDA) 


如 下 : 


并 且 特 别 为 多 处 理 


所 以 ， 


$ bin/nodetool -host 192.168.1.5 tpstats 


这 回 生成 表示 特定 


Ere H 


节点 上 的 线程 池 的 数据 的 ASCII 文 本 输出 : 


Pool Name 


Activ 


FILEUTILS-DELETE-POOL 
MESSAGING-SERVICE-POOL 
STREAM-STAGE 
RESPONSE-STAGE 
ROW-READ -STAGE 


e 


[oOMoNoM MO! 


Pendin 


cOcocon5co:dn 


Completed 
101 
71594081 
2 


38154433 
12542 


看 到 很 多 0 意味 着 服务 器 进行 的 活动 非常 少 ， 


10.3 ”基本 维护 工作 


在 进行 一 些 比较 有 影响 的 任务 之 前 或 之 后 ， 你 需要 进行 一 些 划 
写 (flush) 操作 之 后 ， 进 行 快照 才 有 意义 。 在 本 节 


复 、 快 照 和 清理 (cleanup) 。 


1031 修复 


或 者 


LB-OPERATIONS 0 0 9 
COMMITLOG 1 0 65070187 
GMFD 0 0 1002891 
MESSAGE - DESERIALIZER-POOL 0 0 105025414 
LB-TARGET 0 0 9 
CONSISTENCY -MANAGER 0 0 2079 
ROW-MUTATION-STAGE 1 1 52419722 
MESSAGE - STREAMING-POOL 0 0 121 
LOAD- BALANCER- STAGE 0 0 0 
FLUSH-SORTER- POOL 0 0 115 
MEMTABLE -POST- FLUSHER 0 0 115 
COMPACTION-POOL 0 0 364 
FLUSH-WRITER-POOL 0 0 115 
HINTED-HANDOFF - POOL 0 0 154 


Cassandra! 


'!， 我 们 束 来 看 看 这 


运行 hodetool repair 会 让 Cassandra 执 行 一 次 主 压 紧 。 


树 ， 然 后 将 它 与 其 他 副本 上 的 树 进行 对 比 。 
的 信息 。 


在 一 次 主 压 紧 中 (参考 词汇 表 中 的 “ 压 紧 ”) ， 


de sd Ts ' 马 逊 的 Dynamo 中 ，Cassandra 根 和 
上 的 兴趣 ， 可 以 阅读 Dynamo 论 文 的 4.7 节 ) 。 


repair 命令 与 其 他 Nodetool 命 令 不 同 ， 需 要 传 入 你 要 修复 的 # 


你 可 以 直接 看 到 每 个 阶段 里 有 多 少 操作 ， 以 及 它们 的 状态 是 活动 中 、 
是 在 写 操作 进行 过 程 中 捕捉 到 的 所 以 ， 其 中 


M f 


其 他 任务 。 比 如 ， 只 有 在 进行 完 


文 些 基本 的 维护 任务 ， 修 


EE 


THESE BG ° 3T UH 


m cs m 
异常 的 工作 来 跟 上 负载 。 


目标 节点 会 计算 出 一 个 数据 的 Merkle 


这 步 会 确保 不 会 落下 任何 可 外 


与 其 他 市 点 失去 同步 


服务 器 会 发 起 一 个 TreeRequest/TreeReponse 会 会 话 ， 


与 相 邻 节点 交换 Merkle 树 。Merkle 树 是 列 族 数据 的 一 个 哈 希 表示 。 
人 们 束 会 进行 重新 协调 (或 “修复 ”) ， 来 确定 它 作 
org.apache.cassandra.service.AntiEntropyService 类 负责 。 
AntiEntropyService 实现 了 HARA, 并 定义 了 前 
它 发 现任 何 差异 ， 都 会 为 不 一 致 的 部 分 发 起 一 次 修 


Cassandra 会 偶尔 自动 处 理 这 样 的 问题 ， 你 也 可 以 


] 应 该 设置 为 最 


年 太 


JU 


多 复 o 
目 己 来 发 起 它 。 


pup 
新 的 数据 值 。 树 比较 验证 


的 比较 器 类 ， 用 于 比较 两 棵 树 。 如 时 


不 同 节点 的 树 不 匹配 ， 


T 


由 


AE 


ERREK TAANE (如 果 你 有 学 术 


I 


定 keyspace 的 名 字 : 


$ bin/nodetool repair Keyspacei -h 192.168.1.7 


运行 完 这 个 工具 之 后 ， 你 可 以 看 到 少量 的 服务 


日 志和 输出， 类 似 这 村 


THE 


DEBUG 13:34:59,683 Started deliverAllHints 

INFO 13:34:59,684 Compacting [] 
DEBUG 13:34:59,684 Expected bloom filter size : 128 
DEBUG 13:34:59,685 Finished deliverAllHints 


什么 是 Merkle 树 


Merkle 树 是 以 它 的 发 明 者 Ralph Merkle 命 名 的 ， 又 称 为 “ 哈 希 树 ”。 它 的 数据 结构 是 一 个 二 又 
树 ， 对 于 表示 大 数据 集 的 简短 摘要 。 在 哈 希 树 里 ， 叶 子 市 点 是 要 进行 摘要 的 数据 块 (通常 是 
文件 系统 中 的 文件 ) 。 树 中 的 每 个 父 节 点 都 是 它 的 直接 子 节 点 的 哈 希 ， 这 可 以 紧密 压 紧 摘要 


o 


H. 


信息 U^ 
Cassandra", Merklef/]FHorg.apache.cassandra.utilsMerkleTree 类 实现 。 


在 Cassandra 之 中 ，Merkle 树 用 于 保证 对 等 网 络 中 节点 收 到 的 数据 块 是 未 被 修改 和 破坏 的 。 它 
们 还 用 于 加 密 和 验证 文件 和 数据 传输 的 内 容 ， 同 时 Merkle 树 也 用 于 Google Wave 产 品 之 中 。 


Aa 


LE 因 为 主 压 紧 是 个 非 党 复杂 和 敏感 的 操作 ， 所 以 这 个 任务 不 应 该 运行 得 太 过 频繁 不 应 
该 每 天 运行 ) ， 只 应 该 在 低 负载 的 时 候 进 行 。 


10.3.2 pj 


数据 存放 于 memtable 中 o 要强 
Nodetool 的 flush MS, WF: 


bin/nodetool flush -h 192.168.1.1 -p 9160 
如 果 检 查 服务 器 日 志 ， 可 以 看 到 类 似 这 样 的 输出 : 


DEBUG 15:16:33,945 Forcing binary flush on keyspace Keyspace1, CF Standard2 
DEBUG 15:16:33,945 Forcing flush on keyspace Keyspacei, CF Standard2 
INFO 15:16:33,945 Standard2 has reached its threshold; 
switching in a fresh Memtable at 
CommitLogContext(file-'/var/lib/cassandra/commitlog/CommitLog1277663698134 
.log', position-1390) 


制 把 memtable 中 的 数据 写 到 文件 系统 上 的 SSTable 中 ， 可 以 使 用 


Wu 


"2 PT 
INFO 15:16:34,104 Completed flushing /var/lib/cassandra/data/Keyspace1/ 
Standard2-3-Data.db 


10.3.3 ”清理 


有 一 个 运行 了 一 段 时 间 的 集群 ， 你 希望 修改 副本 因子 或 副本 策略 。 这 是 可 能 的 ， 但 有 两 个 党 
告 。 首 先 ， 这 种 工作 一 般 不 应 该 在 运行 的 集群 中 进行 ， 所 以 一 般 需 要 关闭 一 些 节点 ， 再 重新 启 
动 它 们 ， 即 使 已 经 动态 更 新 了 配置 信息 。 其 次 ， 完 成 之 后 需要 运行 Nodetool 的 cleanup 命令 ， 
以 确保 一 切 正常 。 

你 可 以 用 cleanup 作为 参数 ， 对 希望 清理 的 节点 运行 Nodetool: 


$ bin/nodetool cleanup -h 192.168.1.7 


这 个 命令 会 被 执行 ， 然 后 立即 返回 。 实 际 上 ， 这 是 在 指定 节点 上 运行 一 个 反 压 紧 操 作 。 


10.4 快照 


快照 用 于 对 一 个 节点 的 某 些 或 全 部 keyspace 进 行 复制 ， 并 将 它 保存 到 一 个 独立 的 数据 库 文件 中 
rm 这 意味 着 可 以 把 keyspace 备 份 到 其 他 地 方 ， 或 者 是 把 它们 留 在 原 地 ， 当 需要 的 时 候 再 复原 它 
| o 


10.4.1 ”进行 快照 


当 对 一 个 或 多 个 keyspace 进 行 快照 的 时 候 ， Cassandra 会 调用 Table X, 对 每 个 列 族 调 用 快 
照 方法 。 这 束 是 使 用 Java 的 文件 工具 ， 复 制 一 份 SSTable 文 件 。 注 意 ， 有 一 个 问题 ， 如 果 数 
据 存 在 于 commit log 之 中 ， 它 将 不 是 快照 的 一 部 分 ， 只 有 被 刷 写 之 后 的 数据 和 成 为 快照 的 一 部 
分 ， 因 为 存储 服务 实际 上 就 是 进行 了 一 次 直接 的 文件 复制 。 


s fe 要 在 创建 快照 之 前 进行 刷 写 ， 参 见 10.3.2 节 。 
进行 快照 可 以 直接 使 用 如 下 命令 


$ bin/nodetool -h 192.168.1.5 snapshot 


这 会 在 服务 器 日 志 中 打印 出 已 经 进行 快照 的 提示 : 


DEBUG 14:25:15,385 Snapshot for Keyspace1 table data file 
/var/lib/cassandra/data/Keyspacei1/Standard2-1-Filter.db 

created as /var/lib/cassandra/data/Keyspace1/snapshots/1277673915365/ 
Standard2-1-Filter.db 


DEBUG 14:25:15,424 Snapshot for system table data file 
/var/lib/cassandra/data/system/LocationInfo-9-Filter.db 

created as /var/lib/cassandra/data/system/snapshots/1277673915389/ 
LocationInfo-9-Filter.d 


注意 ， 快 照 已 经 存放 在 已 执行 快照 的 时 间 戳 命名 的 文件 夹 中 了 ， 其 中 的 数据 文件 和 Cassandra 的 
常规 表 文 件 一 样 ， 带 有 .db 扩展 名 。 这 里 是 对 服务 器 上 的 所 有 keyspace 都 进行 了 快照 ， 包 括 了 
system 这 个 Cassandra 的 内 部 keyspace ^ 


如 果 你 希望 对 一 个 指定 的 keyspace 进 行 快照 ， 可 以 把 keyspace 名 字 作 为 一 个 附加 参数 传 给 
Nodetool: 


$ bin/nodetool -h 192.168.1.5 snapshot Keyspacei 


Fa 


:你 不 必 把 快照 放 到 其 他 地 方 去 进行 备份 。 如 果 节点 的 数据 文件 破坏 了 ， 你 把 这 些 
文件 留 在 Cassandra 创 建 它 们 的 地 方 会 更 容易 恢复 。 


如 果 你 希望 恢复 一 个 之 前 进行 的 快照 ， 有 几 步 工作 需要 做 。 首 先 关 闭 节 点 ， 并 删除 旧 的 SSTable 
和 commit log， 然 后 把 快照 目录 里 的 所 有 文件 复制 到 常规 数据 ERES 


10.4.2 ”清除 快照 


你 可 以 删除 任何 曾经 做 过 的 快照 ， 比 如 你 已 经 把 它们 备份 到 其 他 地 方 永 久 存储 起 来 了 。 要 清除 
快照 ， WT Di Nodetoolf jo Lea rsnapshot 关 。 


你 会 看 到 服务 器 有 这 样 的 日 志 输 出 : 


DEBUG 14:45:00,490 Disseminating load info ... 

DEBUG 14:45:11,797 Removing snapshot directory 
/var/lib/cassandra/data/Keyspace1/snapshots 

DEBUG 14:45:11,798 Deleting Standard2-1-Index.db 

DEBUG 14:54:45,727 Deleting 1277675283388-Keyspacei 


ct 


// 清 除 其 他 数据 文件 


DEBUG 14:54:45,728 Deleting snapshots 
DEBUG 14:45:11,806 Cleared out all snapshot directories 


H zh s 


FAIX 


里 的 发 生 的 事情 : 所 有 的 快照 都 被 清 


10.5 ”对 集群 进行 负载 均衡 


H 


除了 


e 


如 果 你 发 现 集群 变 得 不 均衡 了 ， 可 能 是 因为 某 个 区 间 内 插入 了 很 多 键 值 ， 可 以 重 妆 

让 集群 重新 变 得 均衡 。 

负载 均衡 与 流 

使 用 Loadbalance 开关 执行 Nodetool 会 将 一 个 节点 退 服 ， 并 将 它 的 令 牌 发 给 其 他 节点 
让 它 重新 自 举 。loadbalance 命令 实际 就 是 退 服 和 自 举 两 步 独立 任务 的 一 个 封装 。 

如 果 你 有 很 多 数据 ， 负 载 均衡 会 消耗 很 长 的 时 间 。 可 以 通过 用 stream 开关 调 


负载 均衡 操作 。 


这 里 我 们 使 用 loadbalance 参数 调用 Nodetool 来 把 1.5 节 点 上 的 数 和 
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散布 到 


新 分 布 数据 习 


7H 


Hm 


)» 4$ 


jNodetool2i€ 13 T 


$ bin/nodetool -host 192.168.1.5 loadbalance 


这 样 就 开始 了 负载 均衡 过 程 。 当 这 一 切 进行 的 时 候 ， 我 们 可 以 对 希望 检查 的 节点 使 用 streams 
参数 ， 来 确定 其 他 节点 都 是 正常 的 : 
eben@morpheus$ bin/nodetool streams -h 192.168.1.5 
Mode: Leaving: streaming data to other nodes 
Not sending any streams. 
Not receiving any streams. 
ebenQümorpheus$ bin/nodetool streams -h 192.168.1.7 
Mode: Normal 
Not sending any streams. 
Not receiving any streams. 
一 旦 负载 均衡 完成 ， 我 们 可 以 从 日 志 中 看 到 负载 均衡 过 程 中 都 发 生 了 什么 。 
这 里 可 以 看 到 ， 1.5 上 的 节点 在 开始 负载 均衡 之 后 ， 开 始 离开 集群 ， 把 它 的 数据 发 送 给 其 他 节 
点 ， 然 后 自 举 自己 ,再 开始 重新 接收 数据 。 这 就 是 负载 均衡 的 效果 。 
DEBUG 10:46:58,727 Leaving: old token was 20846671262289044293293447172905 
883342 


DEBUG 10:46:58,746 Pending ranges: 
/192.168.1.7: 
(41654880048427970483049687892424207188, 
20846671262289044293293447172905883342] 


INFO 10:46:58,746 Leaving: sleeping 30000 for pending range setup 

DEBUG 10:46:59,323 Disseminating load info ... 
DEBUG 10:47:28,748 Node /192.168.1.5 ranges 
[(41654880048427970483049687892424207188, 208466712622890442932934471729 
05883342]] 
DEBUG 10:47:28,749 Range 

(41654880048427970483049687892424207188, 20846671262289044293293447172905883342] 
will be responsibility of /192.168.1.7 


DEBUG 10:47:28,750 Ranges needing transfer are 
[(41654880048427970483049687892424207188, 20846671262289044293293447172905883342]] 
INFO 10:47:28,750 Leaving: streaming data to other nodes 

DEBUG 10:47:28,753 Beginning transfer process to /192.168.1.7 for ranges 


(41654880048427970483049687892424207188, 20846671262289044293293447172905883342] 


INFO 10:47:28,753 
INFO 10:47:28,753 
DEBUG 10:47:28,754 
INFO 10:47:28,754 


Flushing memtables for Keyspace1... 

Performing anticompaction 

waiting for stream aks. 

Anticompacting [org.apache.cassandra.io.SSTableReader( 


pathz'/var/lib/cassandra/data/Keyspacei1/Standard2-1-Data.db')] 


DEBUG 10:47:28,755 


/var/lib/cassandra/data/Keyspacei1/Standard2-1-Data.db 


DEBUG 10:47:28,755 
INFO 10:47:28,886 


index size for bloom filter calc for file 

256 

Expected bloom filter size :128 

AntiCompacted to /var/lib/cassandra/data/Keyspacei1/stream/ 


Standard2-2-Data.db. 


239/239 bytes for 1 keys. 


INFO 10:47:28,887 
DEBUG 10:47:28,887 
INFO 10:47:28,888 
INFO 10:47:28,892 
Keyspaceli/stream/ 


Time: 131ms . 
Anticompacting [] 

Expected bloom filter size 
Anticompacting [] 

Stream context metadata /var/lib/cassandra/data/ 


128 


Standard2-2-Index.db:55, 
1 sstables./var/lib/cassandra/data/Keyspaced1/stream/Standard2-2-Filter.db:325, 
1 sstables./var/lib/cassandra/data/Keyspacei1/stream/Standard2-2-Data.db:239 


DEBUG 10:47:28,893 


Adding file /var/lib/cassandra/data/Keyspacei/stream/ 


Standard2-2-Index.db to be streamed. 


DEBUG 10:47:28,893 


Standard2-2-Filter. 


DEBUG 10:47:28,893 


Adding file /var/lib/cassandra/data/Keyspacei/stream/ 
db to be streamed. 
Adding file /var/lib/cassandra/data/Keyspacei/stream/ 


Standard2-2-Data.db to be streamed. 


INFO 10:47:28,895 


DEBUG 

INFO 
DEBUG 
DEBUG 
DEBUG 


10:47: 
10:47: 
10:47 
10:47 
10:47 


28,895 
28,895 
:29,309 
:29,310 
:29,310 


Sending a stream initiate message to /192.168.1.7 


attempting to connect to /192.168.1.7 

Waiting for transfer to /192.168.1.7 to complete 
Running on default stage 

Received a stream initiate done message 


Streaming 55 length file /var/lib/cassandra/data/Keyspace1/stream/ 


Standard2-2-Index.db 


DEBUG 10:47:29,316 
DEBUG 10:47:29,316 


Bytes transferred 55 
Done streaming /var/lib/cassandra/data/Keyspaceli/stream/ 


Standard2-2-Index.db 


DEBUG 10:47:29,331 
DEBUG 10:47:29,332 


Running on default stage 
Deleting file /var/lib/cassandra/data/Keyspacei1/stream/ 


Standard2-2-Index.db after streaming 


55/619 bytes. 
DEBUG 10:47:29,332 


Standard2-2-Filter. 


DEBUG 10:47:29,335 
DEBUG 10:47:29,335 


Standard2-2-Filter. 


DEBUG 10:47:29,345 
DEBUG 10:47:29,345 
Standard2-2-Filter 
325/619 bytes. 

DEBUG 10:47:29,345 


stream/Standard2-2- 


DEBUG 10:47:29,347 
DEBUG 10:47:29,347 


Standard2-2-Data.db 


DEBUG 10:47:29,389 
DEBUG 10:47:29,390 


Streaming 325 length file /var/lib/cassandra/data/Keyspacei/stream/ 


db ... 

Bytes transferred 325 

Done streaming /var/lib/cassandra/data/Keyspacel1/stream/ 
db 

Running on default stage 

Deleting file /var/lib/cassandra/data/Keyspacei1/stream/ 


.db after streaming 


Streaming 239 length file /var/lib/cassandra/data/Keyspacei/ 
Data.db 

Bytes transferred 239 

Done streaming /var/lib/cassandra/data/Keyspaceli/stream/ 


Running on default stage 
Deleting file /var/lib/cassandra/data/Keyspacei1/stream/ 


Standard2-2-Data.db after streaming 


239/619 bytes. 
DEBUG 10:47:29,390 
INFO 10:47:29,390 
DEBUG 10:47:29,391 
DEBUG 10:47:29,392 
for Keyspacei 
DEBUG 10:48:59,322 
DEBUG 10:49:01,406 
INFO 10:49:01,406 
assume load 


INFO 10:49:01,407 


Signalling that streaming is done for /192.168.1.7 

Done with transfer to /192.168.1.7 

stream acks all received. 

No bootstrapping or leaving nodes -» empty pending ranges 


Disseminating load info 
Processing response on a callback from 1919970/192.168.1.7 
New token will be 134439585115453215112331952664863163581 to 


from /192.168.1.7 


re-bootstrapping to new token 


134439585115453215112331952664863163581 


INFO 10:49:01,407 
INFO 10:49:31,408 


DEBUG 10:49:31,408 
DEBUG 10:49:31,413 


DEBUG 10:49:31,414 


Joining: sleeping 30000 for pending range setup 
Bootstrapping 


Beginning bootstrap process 
Added /192.168.1.7/Keyspacei1 as a bootstrap source 


Requesting from /192.168.1.7 ranges 


(41654880048427970483049687892424207188, 134439585115453215112331952664863163581] 


DEBUG 10:49:32,097 
DEBUG 10:49:32,098 


Running on default stage 
StreamInitiateVerbeHandler.doVerb STREAM INITIATE 10579 


我 们 来 更 进一步 看 看 Cassandra 如 何 做 到 负载 均衡 的 。 从 日 志 输 出 中 可 以 看 到 很 多 事情 


t 


Cassandra 检 查 集群 中 的 可 用 市 点 和 它们 的 令 牌 区 间 。 然 后 创建 了 一 个 1.5 方 点 上 需要 流出 的 数据 


节点 (本 例 中 是 1.7 节 点 ) e 然后 1.5 节 点 向 1.7 节 点 发 出 流 初始 消息 ， 表 示 自 己 将 要 让 


库 文 件 列表 。 因 为 Standard2 列 族 有 数据 ， 所 以 它 将 移动 它 的 索引 、 e E 


er 
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了 ， 人 然后 服务 器 退 服 一 段 时 间 。 紧 接着 ，1.5 世 点 立刻 回 到 集群 中 来 ， 通 过 gossip 告 知 


[R] 
己 可 以 接收 数据 了 。 分 配 到 新 的 区 间 令 牌 之 后 ，1.5 节 点 开始 从 1.7 节 点 服务 器 上 分 担 
到 本 节点 上 来 。 


Ef 
部 分 数据 


如 果 使 用 ring 参数 运行 Nodetool， 就 可 以 看 到 节点 已 经 分 配 到 了 新 的 区 间 ， 它 们 都 有 了 大 致 相 

等 的 数据 量 : 

Address Status Load Range Ring 
134439585115453215112331952664863163581 

192.168.1.7 Up 3.53 KB 41654880048427970483049687892424207188 |&lt-- 

192.168.1.5 Up 2.95 KB 134439585115453215112331952664863163581 |-->| 


10.6 3RBR D E 


退 服 (decommissioning) 一 个 节点 就 是 将 一 个 节点 从 服务 中 撤 下 来 。 当 调用 Nodetool 的 
decommission 命令 时 ， 实 际 上 是 在 调用 Cassandra 的 StorageService 类 的 decommission 


操作 。 
BREA AANT A: 


eben@morpheus$ bin/nodetool -host 192.168.1.5 ring 


Address Status Load Range Ring 
134439585115453215112331952664863163581 

192.168.1.7 Up 4.17 KB 41654880048427970483049687892424207188 |&lt-- 

192.168.1.5 Up 3.59 KB 134439585115453215112331952664863163581 |-->| 


现在 希望 退 服 1.7 节 点 。 可 以 用 decommission 参数 运行 Nodetool， 将 一 个 节点 撤 出 服务 


OBUER 


$ bin/nodetool decommission -h 192.168.1.7 


运行 这 个 命令 之 后 ， 它 a 默认 等 待 时 间 是 30 秒 。Nodetool 不 会 打印 更 多 
东西 了 ， 但 服务 器 日 志 汪 全 继续 打印 。 在 1.5 市 点 上 我 们 要 保留 的 那个 节 扣 ， 可 以 看 到 退 服 


命令 发 出 之 后 的 日 志 输 出 : 


DEBUG 13:59:00,488 Disseminating load info ... 

DEBUG 13:59:40,010 Node /192.168.1.7 state leaving, token 
41654880048427970483049687892424207188 

DEBUG 13:59:40,022 Pending ranges: 

/192.168.1.5: 

(134439585115453215112331952664863163581, 41654880048427970483049687892424207188] 


DEBUG 14:00:00,488 Disseminating load info ... 
DEBUG 14:00:10,184 Running on default stage 
DEBUG 14:00:10,184 StreamInitiateVerbeHandler.doVerb STREAM INITIATE 4084 
DEBUG 14:00:10,187 no data needed from /192.168.1.7 
DEBUG 14:00:10,551 Node /192.168.1.7 state left, token 
41654880048427970483049687892424207188 
DEBUG 14:00:10,552 No bootstrapping or leaving nodes -» empty pending ranges for 
Keyspacei 
INFO 14:00:18,049 InetAddress /192.168.1.7 is now dead. 


gossiper 告 诉 1.5 节 点 ，1.7 节 点 处 于 离开 状态 。 在 这 个 场景 之 下 ， 
点 不 需要 流出 数据 。 接 下 来 ，1.5 点 就 得 到 了 消息 : 1.7 节 点 已 经 死 掉 了 。 如 果 这 时 运 
nodetool -h «ip» ring 命令 ，1.7 节 点 就 不 会 出 现在 列表 中 了 。 


1.7 节 


同时 ， 在 我 们 正在 退 服 的 节点 的 


志 里 ， 我 们 会 看 到 这 样 的 输出 : 


INFO 13:37:36,299 InetAddress /192.168.1.5 is now UP 


INFO 14:00:11,286 Leaving: streaming data to other nodes 
INFO 14:00:11,318 Flushing memtables for Keyspacei... 
INFO 14:00:11,318 Performing anticompaction ... 

INFO 14:00:11,333 AntiCompacting [org.apache.cassandra. 
io.SSTableReader(path-'c 


INFO 14:00:11,349 AntiCompacting [] 

INFO 14:00:11,364 AntiCompacting [] 

INFO 14:00:11,411 Stream context metadata 

INFO 14:00:13,455 Shutting down MessageService... 


INFO 14:00:13,470 Decommissioned 


INFO 13:59:40,929 Leaving: sleeping 30000 for pending range setup 


:NvarNMlibNcassandraNdataNKeyspacedNStandard2-2-Data.db'),org.apache.cassandra.io 
.SSTableReader(pathz'c:NvarNMlibNcassandraNdataNKeyspacedNStandard2-1-Data.db')] 


INFO 14:00:11,427 Sending a stream initiate message to /192.168.1.5 ... 
INFO 14:00:13,455 Shutdown complete (no further commands will be processed) 


INFO 14:00:13,470 MessagingService shutting down server thread. 


它 将 自己 关闭 ， 完 成 退 服 。 


节点 ) ， 会 看 到 一 条 错误 消息 来 解释 情况 。 执 行 


这 个 节点 开始 发 现 了 1.5 节 点 ， 然 后 收 到 了 退 服 命令 。 它 进入 离开 状态 ， 然 后 睡眠 30 秒 ， 来 确保 
有 足够 的 时 间 获 取 所 有 必要 的 区 间 信 息 。memtable 从 内 存 刷 写 到 磁盘 的 SSTable 之 中 ， 之 后 对 数 
据 进行 一 次 反 压 紧 操 作 。 然 后 ， 根 据 需 要 发 起 一 次 流出 数据 传输 ， 让 数据 流向 1.5 节 点 。 最 后 ， 


如 果 你 在 一 个 不 能 被 退 服 的 节点 调用 退 服 命令 比如 市 点 还 不 是 环 的 一 部 分 ， 或 者 是 唯一 的 可 
| 


退 服 命令 的 基本 步 又 是 这 样 的 。 


1. 关闭 gossiper， 这 样 就 不 会 收 到 更 多 的 数据 了 。 


2. 关闭 这 个 节点 的 消息 服务 。 


3. 关闭 SEDA 阶 段 管理 器 ， 因 为 不 会 接受 更 多 的 任务 在 阶段 间 移 动 了 。 


4. 状态 设置 为 “decommissioned”。 


5. 存储 服务 确定 哪些 可 用 节点 对 于 需要 传输 数据 


A 


区 间 比 较 合 适 。 将 数据 流 到 其 他 节点 


6. 一 旦 接收 市 点 确认 数据 传输 成 功 ， 没 有 其 他 数据 要 传输 了 ， 服 务 器 就 可 以 离开 环 了 。 


.需要 当心 的 是 ， 数 据 不 会 自动 从 运 服 节点 


上 删除 。 如 果 你 决定 在 环 里 重新 加 入 先前 退 


服 的 节点 ， 人 负责 一 个 新 的 区 间 ， 束 必须 首先 手 


删除 它 的 数据 。 


10.7 更 新 节点 


10.7.1 ”删除 令 牌 
如 果 你 想 删 除 一 个 令 牌 ， 可 以 使 用 Nodetool 来 进行 


o 


直接 执行 这 样 一 条 命令 ， 其 中 removetoken 命令 的 参数 是 将 要 删除 的 令 牌 ; 


$ bin/nodetool -h 127.0.0.1 removetoken 42218023250148343019074760608074740927 


ATE 本 成功 ， 客 户 端 会 无 评论 直接 返回 。 注 意 ， 
会 破坏 节点 的 完整 性 。 你 可 以 连接 到 节点 1 上 ， 用 


10.7.2 HIR 


你 不 能 删除 一 个 节点 EM 因为 这 样 
它 来 删除 环 ERA EA 


x 


o 


玉 紧 阐 值 是 一 个 数值 ， 指 一 次 小 压 紧 进行 之 前 ， 队 列 中 等 得 被 压 紧 的 SSTable 的 数量 。 这 个 值 默 
认为 4， 最 大 可 以 设 为 32。 这 个 值 不 应 该 太 小 ， 否则 Cassandra 会 经 党 因为 过 多 的 压 紧 而 SUE 

源 ， 从 而 在 很 多 时 间 都 无 法 全 力 服 务 客户 端 。 这 个 值 也 不 能 太 大 ， 这 样 Cassandra 就 需要 花费 太 
高 的 资源 来 进行 很 多 压 紧 工作 ， 从 而 没有 资源 用 于 响应 客户 端的 请 求 了 。 

要 获得 一 个 节点 当前 的 压 紧 靖 值 ， 可 以 使 用 Nodetool 的 getcompactionthre- shold 命 


Current compaction threshold: Min-4, Max-32 


ebenQümorpheus$ bin/nodetool -h 192.168.1.5 getcompactionthreshold 


10.7.3 


: 


如 果 
A 


o 


1. 使 
2. 关 闭 


需要 ， 可 以 在 一 个 运行 ! 


Cassandra 并 确保 commit log! 


在 一 个 工作 的 集群 中 改变 列 族 


的 Cassandra 和 集群 


没有 


3. 删除 SSTable 文 件 


Filter.db。 找 到 要 改变 的 、 前 缀 为 列 族 名 字 的 文件 。 按 照 对 应 的 命名 方 式 ， 


件 。 


10.8 小结 
本 章 
信息 ， 


ZE o 
SF 


如 何 对 不 


o 这 些 文 


件 存 


f 


Nodetool， 运 行 drain 来 清空 commit log。 


剩余 


的 数据 。 


FE 于 数据 目 


RKE, 


1， 我 们 看 了 一 些 与 Cassandra 交 互 ， 
平衡 的 节点 进 


第 11 章 ”性 能 调 优 


MM, XU 


2&2] 


我 们 将 


本 草 
TIMEN 。 


我 们 还 会 介 


绍 一 些 硬件 选择 与 


[0 何 对 Cassandra 进 行 调 


' 添 加 、 删 除 或 


EE 命名 列 族 。 下 面 是 操作 的 步 


名 为 <cf>-Data.db、<cf>-Index. db 和 <cf>- 


重 命名 这 些 文 


进行 日 常 维护 任 务 的 方法 。 我 们 知道 了 如 何 获取 统计 


进行 负载 均衡 ， 如 何 


XH 


改进 性 能 


Cassandra 的 配置 》 


文件 ! 
改 它们 。 本 章 中 ， 


通用 的 规则 ， 
合适 地 分 布 数 据 六 


修改 它们 。 虽然 默认 


I o 


我 们 将 会 看 到 这 些 设 


ii 
(3r 


说 


时 库 进 行 快照 以 备份 数据 ， 


。 配置 文件 中 有 很 


多 设置 


的 优化 。 有 一 些 独 立 的 设置 


如 何 退 服 节 点 


可 以 帮助 我 
你 可 以 在 


rm 


必须 


要 注意 ，ff 简 


AB 


接地 把 


| 本 ， 


新 的 节点 只 能 


Cassandra 


我 们 还 会 看 到 如 何 使 用 


Cassandra 在 压力 测试 环境 下 的 表现 。 之 后 ， 


实战 环境 中 局 动 服务 。 


11.1 数据 存储 


然后 将 
直 空 闲 着 。 


JX) = 端的 流量 分 


是 推荐 的 ， 但 在 某 些 | 


个 节点 加 入 到 集群 中 
到 所 有 节点 上 。 如 果 不 将 客 


青 况 下 ， 还 是 需要 修 


不 会 改善 性 能 。 你 


市 的 Python 压力 测 试 工具 运行 一 个 合理 的 负载 ， 


Pih 


来 快速 查 


我 们 可 以 合理 


调整 Cassandra， 确 信 


已 经 可 以 在 一 个 


Cassandra 在 处 理 更 新 操作 时 会 写 两 类 文件 ，commit log 和 数据 文件 。 要 了 解 如 何 配置 它们 ， 需 
要 首先 明白 它们 的 不 同 目的 。 


commit log 可 以 看 做 是 短期 存储 。Cassandra 接 收 到 更 新 之 后 ， 每 个 写 值 会 立刻 写 入 commit log, 

写 入 是 以 原 t 抬 顺序 文件 追加 的 形式 。 如 果 关 闭 了 数据 库 ， 或 是 它 意 外 崩 涡 了 ， commit log 可 以 保 

障 数据 不 会 EX. 因为 下 次 ES SUITES, commit log 还 会 被 重 放 。 事实 上 ， commit log 只 有 

B. 会 被 读 取 ， 客 户 HAEREERE E » (HÆ, MA commit log 的 写 入 操作 是 阻塞 
， 所 以 它 可 能 会 非常 影响 性 和 ， 因 为 它 需要 客户 端 等 待 它 写 完 o 


数据 文件 是 指 有 序 字 符 串 表 (SSTable) 。 和 commit log 不 同 ， 数 据 是 异步 写 入 这 个 文件 的 。 
SSTable 在 周期 性 的 主 压 紧 中 进行 归并 ， 从 而 释放 出 空间 。 要 做 到 这 这 点 ，Cassandra 会 归并 键 值 、 
合并 列 ， 并 删除 墓碑 。 


读 操 作 可 以 通过 内 存 中 的 缓存 进行 ， 在 这 种 情况 下 不 会 直接 读 取 磁 盘 上 的 数据 文件 。 如 果 给 
Cassandra 配 置 很 多 GB 的 内 存 ， 那 么 当 行 缓存 和 键 缓存 命中 的 上 时候， 可 以 很 大 程度 地 提升 性 能 。 


在 将 所 有 追加 写 入 的 数据 成 功 刷 写 到 特定 的 数据 文件 中 后 ，commit log 是 会 周期 性 移 除 的 。 
此 ，commit log 不 会 长 到 接近 数据 文件 的 尺寸 ， 所 以 ， 它 VANS SECRET, 这 在 硬件 选择 时 需要 
考虑 。 例 如 ， 如 果 Cassandra 执 行 了 一 次 刷 写 操作 ， 可 以 在 服务 器 日 志 中 看 到 这 样 的 内 容 : 


INFO 18:26:11,497 Enqueuing flush of Memtable-LocationInfo@26830618(52 
bytes, 2 operations) 

INFO 18:26:11,497 Writing Memtable-LocationInfoQ26830618(52 bytes, 2 
operations) 

INFO 18:26:11,732 Completed flushing /var/lib/cassandra/data/system/ 
LocationInfo-2-Data.db 

INFO 18:26:11,732 Discarding obsolete commit log 


w 


T 


l CommitLogSegment (/var/lib/cassandra/commitlog/CommitLog1278894011530.10g) 
然后 ， 如 果 查 看 commit log 的 目录 ， 就 会 发 现 文件 已 经 被 删除 了 
默认 情况 下 ，commit log 和 数据 文件 被 存放 在 下 面 的 位 置 : 


&ltCommitLogDirectory>/var/lib/cassandra/commitlog&lt/CommitLogDirectory> 


&ltDataFileDirectories> 
&ltDataFileDirectory>/var/lib/cassandra/data&lt/DataFileDirectory> 
&lt/DataFileDirectories> 


ru 2C a log 存 放 的 位 置 。 妇 


采 你 希望 ， 可 以 指定 多 个 数据 文 


En 在 Windows 下 ， 即 使 它们 指向 默认 位 置 ， 也 不 需要 改变 这 些 值 ， Windows 会 自动 调整 路 
i 并 把 它们 放 在 CA 下面 。 当 然 ， 在 一 个 真实 的 环境 中 ， 一 般 还 是 应 该 分 别 指定 它们 
d 径 Ao 


为 了 测试 ， 你 可 能 找 不 到 要 改变 这 些 位 置 的 理由 。 然 而 ， 实 际 部 署 的 建议 是 ， 将 数据 文件 和 
commit log 分 别 放 到 不 同 的 硬盘 上 ， 以 使 性 能 最 大 化 。Cassandra 和 很 多 其 他 数据 库 一 样 ， 特 别 
依赖 于 硬盘 的 速度 和 CPU 的 速度 (最 好 有 4 到 8 个 内 核 ， 来 更 好 发 挥 Cassandra 的 高 并 发 架构 
势 ) 。 确 保 QA 和 生产 环境 都 安装 上 你 能 得 到 的 最 快 的 硬盘 至 少 有 两 块 独立 的 硬盘 ， 以 便 确 
el log 文 件 和 数据 文件 不 会 争 抢 L/O 时 间 。 而 是 ， 有 多 个 处 到 器 比 有 一 两 个 很 快 的 处 理 器 


11.2 ”回复 超时 


3i 


YAML 中 是 rpc_timeout_in_ms ) 。 默 认 情 况 下 ， 这 个 值 是 5 000， 也 就 是 5 秒 钟 。 


11.3 commit log 


你 可 以 设置 在 停止 向 commit 10g 追 加 写 数据 并 创建 新 文件 之 前 ， 允 许 它 长 到 多 大 的 值 。 
似 于 Log4J 的 日 志 翻 转 时 间 设 置 。 


个 值 通 过 CommitLogRotationThresholdInMB 元 素 设置 (在 YAML 中 是 
commitlog rotation threshold in mb) ， 默 认 值 为 128 MB » 


回复 超时 (reply timeout) 设置 的 是 Cassandra 在 等 待 其 他 节点 响应 其 请 求 的 超时 失败 时 间 。 在 关 
系 型 数据 库 和 消息 系统 中 都 有 这 个 设置 。 这 个 值 由 RpcTimeoutInMi1L1is TARE (在 


这 个 值 类 


另 一 个 commit log 相 关 的 设置 是 sync 操 作 ， 由 commit1log_sync 元 素 设置 。 这 个 设置 有 两 个 万 


能 的 选项 periodic 或 batch » periodic 是 默认 值 ， 它 的 含义 是 ， 服 务 器 按照 一 个 特定 的 时 


间 间 隔 ， 将 写 操作 持久 化 。 当 服务 器 设置 为 周期 性 持久 化 写 的 时 候 ， 有 可 能 出 现在 数据 还 没有 


从 滞后 写 缓 存 中 同步 到 磁盘 上 的 时 候 丢 失 数据 。 
为 了 确保 Cassandra 集 群 的 持久 性 ， 可 能 需要 修改 这 个 设置 。 
如 果 commit log 设 置 为 batch ， 它 将 会 在 数据 同步 写 入 到 磁盘 上 之 前 一 直 阻 塞 写 操 作 


a AE 


刷 写 到 硬盘 上 。 改 变 这 个 值 需要 进行 一 些 性 能 考量 ， 因 为 这 做 出 了 一些 取舍 ;强制 Cas 


CommitLogSyncBatchWindowInMS 一 个 合理 的 值 ， 这 里 MS 是 每 次 同步 写 入 的 毫秒 


之 前 是 不 会 响应 写 请 求 的 。 


如 果 你 决定 使 用 batch 模式 ， 需 要 把 commit log 分 到 独立 的 设备 上 来 降低 性 能 影响 。 不 论 何 
时 ， 将 commit log 和 SSTable (数据 文件 ) 放 到 不 同 的 磁 副 上 都 是 个 好 主意 ， 即 使 你 没有 选择 


batch 模式 。 


11.4 memtable 


(Cassandra 在 commit log 完 整 同 步 到 磁盘 上 之 前 ， 不 会 确认 写 操作 ) 。 这 显然 会 对 性 能 造成 负 


sandra 更 


迅速 地 写 入 限制 了 它 更 自由 地 管理 资源 。 如 果 将 commit1log_sync 设置 为 batch ， 就 必须 给 


数 。 而 


在 多 节点 集群 中 ， 通 常 没有 必要 这 么 设置 ， 因 为 根据 多 副本 定义 ， 在 其 他 节点 也 得 到 数据 


每 个 列 族 都 有 一 个 单独 的 memtable 与 之 相关 联 ， 有 一 些 设置 是 关于 memtable 处 理 的 。 在 刷 写 到 


硬盘 、 成 为 SSTable 之 前 ，memtable 可 以 长 大 到 的 尺寸 是 由 MemtableSizeInMB TUR 


(在 


mtable 本 


YAML 中 是 binary_memtable_throughput_in_mb ) 设置 的 。 注 意 ， 这 个 值 是 me 


盘 之 前 ， 在 其 中 可 以 存储 的 列 值 数量 的 国 值 。 


个 相关 设置 是 memtable_throughput_in_mb 。 这 是 一 个 memtable 在 被 刷 写 到 磁盘 、 成 为 


SSTable 之 前 可 以 存储 的 最 大 列 数 。 默 认 值 为 0.3， 大 约 是 333 000 列 。 
你 还 可 以 配置 memtable 在 刷 写 到 硬盘 之 后 ， 可 以 在 内 存 个 值 通 过 


在 内 存 中 的 大 小 ， 而 不 是 占用 的 堆 大 小 ， 因 为 一 些 列 索引 相关 的 开销 ， 后 者 可 能 会 更 大 。 


你 需要 平衡 设置 这 个 参数 和 MemtableobjectCcountInMilL1lions ， 这 是 memtable 被 刷 写 到 硬 


你 可 以 把 这 个 设置 属性 从 periodic 改 为 batch ， 指 定 Cassandra 必 须 在 响应 写 操作 之 前 将 数据 


pr 


memtable flush after mins 元 素 设置 。 当 刷 写 执行 时 ， AA. 个 刷 写 缓冲 区 


以 使 用 flush_data_buffer_size_ in mb 配置 这 不 缓冲 区 的 大 故人 


， 也 可 


另 一 个 用 于 调整 memtable 的 相关 元 素 是 memtable_flush_writers。 这 个 设置 的 默认 值 是 
1， 它 是 当 memtable 写 入 磁盘 时 需要 使 用 的 线程 数量 。 如 果 有 非常 大 的 堆 ， 把 这 个 值 调 高 可 以 提 
高 性 能 ， 因 为 这 些 线程 在 磁盘 IO 时 会 阻塞 住 。 


Cassandra 和 很 多 数据 存储 系统 的 一 大 不 同 ， 就 是 提供 了 比 读 性 能 更 
关于 多 少 个 线程 可 以 执行 读 操 作 和 写 操 作 的 : concur 


一 


高 的 写 性 能 


rent __ f 


» 一 般 来 说 ，Cassandra 默 认 
concurrent_reads 设置 ， 因 为 concu 
是 最 优 的 。 这 个 设置 是 8， 作 
可 以 使 ) 。 但 如 果 你 有 一 个 8 核 的 服务 器 ， 


rrent 


H I 


ABRED TANT o 


但 你 可 能 ; 


reads 设置 在 每 个 


巴 它 设置 为 16。 


concurrent writes 设置 的 形式 有 些 不 
。 如 果 将 Cassandra 作 为 一 个 Web 应 用 服务 
务 器 可 以 用 于 连接 Cassandra 


器 的 后 端 ， 
和 用 i 


到 服务 


则 可 以 把 这 


的 线程 数 。 对 
数据 库 连 


你 使 用 


了 一 个 多 应 用 


虽 库 连接 池 不 会 大 于 20 或 30。 不 过 ， 如 
个 值 乘 上 一 个 因子 。 


11.6 ”缓存 


有 很 多 缓存 相关 的 设置 ， 既 有 Cassandra 的 设置 ， 
以 需要 根据 使 用 情况 来 小 心 二 调整 


d 统 级 的 设置 。 
EI 


大 的 内 存 ， 所 
行 缓存 和 键 值 


让 月 


Cassandra 中 有 两 类 主要 的 缓存 : 

列 ) ， 所 以 它 是 键 缓存 的 超 集 。 如 果 你 对 
它 使 用 键 值 缓存 了 。 
因而 ， 绥 存 策略 应 该 相 
。 考虑 查询 ， 使 用 
。 考虑 推 内 存 和 缓存 尺寸 
。 考 虑 行 尺 寸 和 键 值 尺 寸 。 通 常 键 值 
keys cached 设置 的 是 存储 在 内 存 之 


一 个 小 数 (0 和 1 之 间 的 一 个 数 ) 或 是 一 个 整数 。 
的 百分比 ;而 如 果 使 用 了 一 个 整数 ， 则 是 指 


AE? 


据 下 面 几 个 条 件 确 


EA 


某 个 给 定 的 列 族 使 ) 


询 方式 的 缓存 类 型 。 
的 比例 ， 不 要 让 缓存 占 满 堆 


都 会 比 整 行内 容 人 | 


容量 。 
RA 。 
ji 


N 


日 


Vas 


色 对 数值 


Sh keys. cached 是 一 个 列 族 的 设置 ， 某 
族 可 以 有 不 同 的 键 值 位 置 缓存 数量 。 


这 个 设置 会 消耗 很 多 内 存 ， 但 是 如 果 你 的 位 置 


已 经 不 是 热点 


disk_access_mode 的 目的 是 允许 将 文件 
就 可 以 降低 Cassandra 内 部 的 缓存 的 负载 。 这 


映射 至 
UT EB OT 


直 从 默认 的 32 调 至 
民 务 器 来 说 ， 
服务 器 集群 ， 可 能 还 需要 给 这 


缓存 可 能 会 


。 有 两 个 设置 是 


concurrent wri 
要 在 启动 服务 器 之 前 
-处 理 器 核 两 个 线程 的 时 候 
受 设 服务 器 是 4 核 的 。 如 果 这 正 是 你 的 配置 ， 
就 应 该 


E] » € o 


3 


器 的 客 


tes 


修改 


你 刚好 


户 端 的 数 


IA) 


1k 


通常 合理 的 


5 用 相当 


缓存 。 行 缓存 会 缓存 整 行 数据 (它们 所 有 的 
明了 行 缓存 ， 那 么 你 也 就 不 需要 对 


这 个 值 


了 ， 可 以 考虑 做 个 折 中 。 


可 以 指定 
小 数 ， 是 指 DNI 
定 将 要 组 人 UR GC 


些 列 族 比 其 他 的 列 族 更 常 被 访问 ， 所 以 不 同 的 列 


I 内 存 ， 这 样 
好 ， 不 过 在 实践 中 ， 


disk access mode 是 最 没 用 的 设置 之 一 ， 而 


前 也 无 法 按照 预想 的 那样 


HÈ 


ERE BERT DLE, xf 


[ 作 。 这 可 能 会 


在 将 来 有 所 改进 ， 不 过 看 起 来 这 个 设置 同样 可 能 被 移 除 。 当 然 可 以 尝试 它 ， 不 过 你 可 能 不 会 看 
到 什么 不 同 。 


你 还 可 以 在 服务 器 启动 时 就 填 入 行 缓存 。 要 这 么 做 ， 可 以 使 用 preload_row_cache 元 素 。 这 
个 设置 默认 是 false ， 不 过 可 以 把 它 设置 为 true 来 改进 性 能 。 代 价 是 ， 如 果 要 预 装载 很 多 列 
族 的 数据 ， 自 举 的 时 间 可 能 会 更 长 。 


rows cached 设置 指定 了 将 被 缓存 的 行 数 。 默 认 情 次 下 ， 这 个 值 是 0， 意 味 着 不 使 用 行 缓存 ， 
行 缓存 是 一 个 好 主意 。 这 里 ， 如 采 使 用 一 个 小 数 ， 那 么 就 是 指定 全 部 数据 要 缓存 的 百 分 
而 如 有 果 是 个 整数 ， 见 ERA 立 置 的 行 数 的 绝对 数值 。 不 过 ， 你 应 该 谨慎 使 用 这 个 设 
丸 为 这 个 设置 很 容易 失去 控制 。 如 果 列 族 的 读 请 求 大 于 写 请 求 ， 那 么 把 它 设置 得 很 高 将 
不 必要 地 消耗 多 的 服务 器 资源 。 而 如 采 列 族 有 一 个 很 低 的 读 写 比例 ， 但 有 很 大 的 行 (MAL 
百 列 ) ， 那 么 在 把 这 个 值 设 得 很 高 之 前 需要 好 好 计算 一 人 下。 除非 菜 些 行 会 有 很 高 的 命中 率 ， 而 
其 他 行 不 太 会 被 访问 到 ， 和 否则 你 不 会 从 这 里 得 到 很 大 性 能 提升 。 


11.7. 缓冲 区 尺寸 
缓冲 区 尺寸 代表 执行 某 些 操作 时 分 配 的 内 存 大 小 。 下 


e flush data buffer size in mb 


这 个 值 默 认 设 为 32MB， 这 是 用 于 将 memtable 刷 写 到 磁盘 上 的 缓冲 区 尺寸 。 


WE 


是 这 些 设置 的 一 个 概览 : 


e flush index buffer size in mb 


个 值 默 认 设 为 98MB。 如 果 每 个 键 值 只 定义 了 很 少 的 列 ， 可 以 考虑 增加 索引 缓存 的 尺寸 。 
相反 ， 如 有 果 每 行 都 有 很 多 列 ， 那 么 束 应 该 减 小 这 个 缓冲 区 的 尺寸 。 


e Sliced buffer size in kb 


c de TEBUB E, BUT ACH U BEDUB ACKHI A, o E fen 有 
值 ， 指 定 当 执行 切片 查询 时 对 邻近 列 进行 的 缓存 。 如 果 某 个 切片 查询 的 执行 概率 远 高 了 于 其 
他 查询 ， FUE EI 列 族 的 列 数量 比较 具有 一 致 性 ， 那么 这 个 设置 在 读 查 询 时 可 能 全 


有 一 些 用 。 不 过 记 住 ， 这 个 设置 是 全 局 的 。 
11.8 ”使 用 Python 压力 测试 


Cassandra 附 带 了 一 个 称 为 py_stress 的 受 欢 迎 的 工具 ， 可 以 用 于 对 Cassandra 进 行 压力 测试 。 
要 运行 by_stress ， 可 以 进入 <cassandra-home>/contrib 目 录 。 你 需要 先 阅读 README .txt 文 
件 ， 这 里 面 列 出 了 要 运行 这 个 工具 需要 满足 的 先决 条 件 。 


在 运行 这 个 工具 之 前 还 有 几 个 工作 要 做 。 首 先 确定 配置 中 还 有 默认 keyspace (Keyspacei) 并 
加 载 了 它 ， 因 为 这 个 工具 会 执行 在 默认 的 列 族 定义 之 上 。 


之 后 ， 你 需要 生成 Python Thrift 接 口 ， 这 可 能 还 需要 几 步 操作 。 


11.8.1 ^EJEPython Thrift 接 口 


在 运行 压力 工具 之 前 ， 我 们 需要 确定 已 经 有 Python 的 Thrift 接 口 可 用 了 《因为 这 是 一 个 Python 脚 
本 ) 。 如 果 执 行 命令 时 出 现下 面 的 一 行 错误 ， 就 说 明 还 没有 生成 接口 ， 或 是 生成 的 不 正确 : 


No module named thrift.transport 


还 要 确定 已 经 在 系统 中 安装 Python 了。 要 验证 是 否 安装 了 Python， 打 开 终 端 窗口 ， 键 入 
$python ， 你 应 该 可 以 看 到 类 似 下 面 的 输出 : 


eben@morpheus$ python 

Python 2.6.5 (r265:79063, Apr 16 2010, 13:09:56) 

[GCC 4.4.3] on linux2 

Type "help", "copyright", "credits" or "license" for more information 


要 确保 Python 版 本 是 2.6 或 者 更 高 ， 这 样 你 才能 得 到 它们 提供 的 最 新 的 多 线程 能 力 ， 这 对 于 压力 
测试 来 说 非常 方便 。 


获得 Thrift 


要 获得 Thrift， 从 http://incubator.apache.org/thrift 下 载 ， 你 将 得 到 一 个 类 似 thrift-0.2.0- 
incubating.targz 的 文件 。 将 它 解 压 ， 然 后 运行 如 下 Linux 命 令 来 建立 依赖 关系 1 : 


译注 1: 这 个 命令 仅 适 用 于 使 用 APT 包 管理 系统 的 Linux 发 布 版 ， 如 Debian 和 Ubuntu 等 ， 其 他 发 布 版 需要 使 用 相应 的 包 管 理 


> 


$ sudo apt-get install -y libboost-dev libevent-dev python-dev automake 
pkg-config 
libtool flex bison 


如 果 系 统 中 没有 安装 好 C++ Boost 库 ，Thrift 可 能 无 法 正常 工作 。 可 以 从 http:/www.boost.org 下 载 
Boost。 之 后 ， 在 Boost 目 录 中 ， 运 行 如 下 命令 : 


$ ./bootstrap.sh 
$ ./bjam 


这 将 编译 和 安装 Boost。 现 在 ， 要 编译 Thrift， 可 以 以 root 权 限 在 Thrift 目 录 中 运行 如 下 一 组 命令 


$ ./bootstrap.sh 
$ ./configure 

$ ./make 

$ ./make install 


现在 运行 命令 $which thrift ， 就 会 告诉 你 Thrift 安 装 到 的 路 径 了 。 在 我 的 系统 
是 /usr/local/bin/thrift ° 


Aa 


[$4 在 Ubuntu Linux 中 ， 在 安装 Thrift 时 可 以 看 到 这 样 一 个 错误 “autoscan: not found" ° yum EX 
者 apt- get 中 都 没有 一 个 名 为 autoscan 的 包 。 要 获得 Thrift 自 举 需 要 的 autoscan， 可 以 运行 如 下 命 
4. 


$ sudo apt-get install automake 


可 以 通过 $which autoscan 来 查看 是 否 安装 了 autoscan 了 ， 如 果 返 回 值 是 空 ， 就 是 还 没有 


安装 它 。 


如 果 Thrift 已 正确 安装 了 ， 应 该 可 以 运行 Thrift 程 序 并 看 到 帮助 输 昌 


EE 


$ thrift -version 
Thrift version 0.2.0-exported 


把 site-package 目 录放 在 Python 路 径 中 : 


$ export PYTHONPATH-/usr/lib/python2.6/site-packages/ 


现在 可 以 进入 <cassandra-home> 目 录 了 。 运 行 下 


条 的 命令 来 为 Python 生 成 Thrift 接 


s 


$ ant gen-thrift-py 


你 应 该 可 以 得 到 一 个 编译 成 功 


有 了 Cassandra 的 Thrift 为 Python 


home>/contrib/py_stress。 现 在 只 
T o 


L px 


目录 复制 


的 消息 。 现 在 ，<cassandra-home>/interfaces/thrift/gen-py 目录 下 就 
E 成 的 接口 。 将 这 个 


到 <cassandra- 


1 要 确定 Cassandra 服 务 器 已 经 


11.8.2 “运行 Python 压力 测试 


现在 一 切 设置 妥当 ， 可 以 运行 


压力 测试 了 。 
H, A stress. py 对 本 机 运行 测试 。 


启动 ， 就 可 以 运行 Python 压力 测试 


如 果 看 到 的 消息 表示 压力 测试 无 法 连接 localhost :91690 ， 
口 。 如 果 配 


Cassandra 确 实 启 动 了 ， 并 


在 监听 这 个 地 址 和 端 


非 localhost， 就 需要 改动 脚本 ， 


可 能 是 最 好 的 方法 ， 通 过 传送 -d 参数 来 


让 它 指向 服务 器 ， 或 者 修改 服务 器 的 配置 来 监听 localhost， 或 者 
连接 哪个 服务 器 。 让 我 们 开始 吧 : 


雪 诉 脚本 


进入 <assandra-home>/contrib/py_stress 目 录 。 在 终端 


那 你 有 几 种 选择 。 首 先 ， 确 定 
置 Cassandra 为 监听 IP 或 主机 名 ， 而 


$ stress.py -d 192.168.1.5 


Er» 你 可 以 运行 stress .py -h 来 查看 压力 测试 脚本 的 


个 测试 将 会 插入 一 百 万 个 值 


使 用 方法 。 


然后 停止 。 在 一 个 装备 了 Intel i7 处 理 器 〈 类 似 8 核 的 处 理 器 ) ^ 


, 


: 


4GB 内 存 ， 同 时 运行 了 很 多 其 他 进程 的 普通 工作 站 上 ， 我 运行 了 这 个 测试 。 这 里 是 我 的 输出 : 


196499, 19649, 0.0024959407711, 10 
370589, 17409, 0.00282591440216, 20 
510076, 13948, 0 . 00295883878841, 30 
640813, 13073, 0.00438663874102, 40 
798070, 15725,0.00312562838215, 50 
950489, 15241, 0.0029109908417, 60 
1000000, 4951, 0 . 00444872583334, 70 


我 来 解释 一 下 。 我 们 做 的 事情 是 将 一 百 万 个 值 揪 


ebenQmorpheus$ ./stress.py -d 192.168.1.5 -o insert 


total,interval op rate,avg latency,elapsed time 


大 约 70 秒 。 可 以 看 到 ， 前 10 秒 插入 了 196 699 个 随机 4 


训 秒 。 但 这 是 使 用 默认 配置 的 ， 


的 数据 。 我 们 提供 更 多 的 线程 ， 来 看 一 下 是 不 是 能 得 


日 在 局 动 测试 之 前 


入 到 一 个 未 


成 的 值 


经 调 优 的 Cassandra 服 务 器 上 ， 用 时 


o 平均 0025 秒 ， 即 2.5 


的 Cassandra 服 务 器 已 经 有 了 大 约 1GB 
导 到 一 些 性 能 改进 : 


219217,21921,0.000410911544945, 10 
427199, 20798, 0.000430060066223, 20 
629062, 20186, 0 . 000443717396772, 30 
832964, 20390, 0. 000437958271074, 40 
1000000, 16703, 0.000463042383339, 50 


total,interval op rate,avg latency,elapsed time 


ebenQümorpheus$ ./stress.py -d 192.168.1.5 -o insert -t 10 


约 每 条 写 操作 2 毫秒 时 延 。 这 


这 里 ， 使 用 了 -t 参数 ， 指 定 一 次 使 用 1 io 
大 


这 是 使 用 的 一 


AE 


Tr, 


完全 未 经 


V8 C3] 


在 50 秒 钟 内 插入 了 一 百 万 条 记录 ， 
F 已 经 包含 大 约 1.5 GB 数据 的 数据 


库 o 

你 应 该 多 次 运行 测试 来 得 到 根据 息 件 设置 最 合适 的 线程 数 。 根 据 处 理 器 核 数 ， 如 采 使 用 过 再 的 
线程 数 ， 将 会 得 到 更 差 而 不 是 更 好 的 性 能 ， 因 为 处 理 器 会 花费 更 多 的 时 间 用 于 管理 线程 ， 而 不 
是 处 理工 作 。 你 应 该 让 线程 数 和 处 理 器 核 数 基本 匹配 来 得 到 一 个 合理 的 测试 结果 。 


现在 已 经 把 数据 放 入 到 数据 库 中 了 ， 让 我 们 使 用 测试 工具 来 记 些 值 : 


取 一 些 值 


$ ./stress.py -d 192.168.1.5 -0 read 


total,interval op rate,avg latency,elapsed time 
103960,10396,0.00478858081549, 10 
225999,12203,0.00406984714627, 20 
355129,12913,0.00384438665076, 30 
485728,13059,0.00379976526221, 40 
617036, 13130, 0 . 00378045491559, 50 
749154, 13211, 0 . 00375620621777, 60 
880605, 13145, 0 . 00377542658007, 70 
1000000, 11939, © . 00374060139004, 80 


可 以 看 到 ，Cassandra 的 读 速 度 不 像 写 速度 那么 快 ， 花 费 了 大 约 80 秒 才 读 出 一 百 万 条 记录 。 记 
住 ， 这 是 未 经 调 优 、 默 认 设置 在 单线 程 上 ， 而 且 运 行 了 其 他 程序 的 普通 工作 站 上 运行 的 测试 ， 
而 且 数据 库 里 已 经 存 有 2 GB 的 数据 。 不 过 ， 这 是 一 个 不 错 的 工具 ， 帮 你 针对 自己 的 环境 进行 性 
能 调 优 而 且 能 大 致 了 解 集群 性 能 。 


11.9 ”启动 和 JVM 设 置 


Cassandra 介 许 你 配置 很 多 关于 如 何 启 动 、Java 需 要 分 配 多 少 内 存 之 类 的 选项 。 在 本 节 中 ， 我 们 
来 看 如 何 调 优 启动 参数 。 


如 果 使 Windows, 则 启动 脚本 是 cassandra.bat; 而 如 果 使 用 Linux， 则 应 该 是 cassandra.sh。 可 以 
直接 运行 这 个 文件 来 启动 服务 器 ， 这 里 面 设置 了 很 多 默认 值 。 不 过 ， 在 bin 目 录 里 还 有 另 一 个 文 
件 允 许 我 们 配置 种 关于 Cassandra 启 动 的 设置 。 这 个 文件 称 为 cassandra.in.sh， 里 面包 含 了 很 多 
选项 ， 包 括 JVM 设 置 等 ， 把 设置 放 到 一 个 单独 的 文件 中 可 以 让 升级 维护 更 加 方便 。 


JVM 调 优 

为 了 得 到 更 好 的 性 能 ， 可 以 对 传 给 JVM 的 启动 参数 进行 调 优 。 关 键 的 JVM 选 项 已 经 包含 在 
cassandra.in.sh 文 件 中 了 ， 对 它们 进行 调 优 的 指南 如 表 11-1 所 示 。 如 果 要 修改 这 些 值 ， 只 要 在 文 
本 编辑 器 中 打开 并 修改 这 些 值 ， 然 后 重新 启动 Cassandra 就 可 以 了 。 


表 11-1 ” Java 性 能 调 优 选项 


LH 


US 这 两 个 设置 分 别 默 认为 256 MB 和 1 GB。 要 凋 优 这 个 设置 ， 可 以 把 它们 设置 得 更 高 ， 
A 设置 为 一 样 的 值 (参考 后 面 的 提示 ) 


断言 (assertion) 默认 情况 下 ，JVM 使 用 -ea 开关 打开 了 断言 。 把 -ea 改 为 -da (关闭 断言 ) 可 以 提升 性 能 


， 年轻 的 和 年 老 的 。 年 轻 空间 中 ， 一 部 分 用 于 新 对 象 分 配 

( 称 为 “伊甸园 ” (edenspace) ) ， 一 部 分 于 存放 还 在 使 的 新 对 象 。 年 老 对 象 是 那 
些 经 历 过 几 次 垃圾 回收 仍然 被 引用 的 对 象 。 存 活 比例 是 年 轻 代 的 堆 空间 里 ，eden space 

对 survivor space 的 比例 。 如 果 应 用 中 会 创建 很 多 新 对 象 ， 但 生存 周 e 就 可 以 把 这 

GERE ease n 个 值 设 高 一 些 。 反 之 ， 如 果 应 用 中 大 部 分 都 是 长 期 存活 的 这 个 值 设 低 一 

些 。Cassandra 这 个 设置 的 默认 值 为 8， 也 就 是 说 ，eden 与 survivor 的 空间 比 : 例 是 1 8 (每 

个 survivor 空间 的 尺寸 将 是 eden 的 18) 。 这 个 比例 相当 低 ， 因 为 memtable 里 的 对 象 的 生 

存 时 间 都 很 长 。 这 个 设置 可 以 和 MaxTenuringThreshold 一 起 调 


MaxTenuringThreshold 每 个 Java 对 象 的 标题 处 都 有 一 个 年 龄 域 ， 表 示 它 在 年 轻 代 里 被 复制 的 次 数 。 它 们 每 经 历 


>d 
E 
gt 
E 
ES 


一 次 年 轻 代 的 垃圾 回收 就 会 复制 一 次 ， 而 这 个 复制 是 有 开销 的 。 因 为 长 期 存 在 的 对 象 可 
会 被 复制 很 多 次 ， 调 试 这 个 值 可 以 改进 性 能 。 默 认 情况 下 ，Cassandra 设置 这 个 值 为 
可 以 把 它 设 置 为 0， 这 样 会 立刻 把 存活 过 一 次 的 年 轻 代 GC 的 对 象 放 入 年 老 代 


能 
1? 
这 个 选项 指示 JVM 的 垃圾 收集 (garbage collection, GC) 策略 ， 特 别 地 ， 它 启动 了 并 发 
标记 外 法 。 这 个 设置 会 占 更 多 的 R A M 和 更 多 的 CPU 的 资源 ， 在 程序 运行 的 时 候 进 
UseConcMarkSweepGC 行 更 频繁 的 G C ， 以 保证 G C 造成 的 中 断 时 间 最 小 。 使 用 这 个 策略 ， 应 该 将 堆 的 最 小 值 
E 和 最 大 值 设置 为 相同 值 ， 这 样 防 止 JVM 花费 REN IRI ed 的 Rab 也 可 以 使 
XX:+UseParallelGC， 这 可 以 利用 多 处 理 器 机 器 的 资源 。 这 样 能 有 更 好 的 峰值 性 能 ， 但 
会 有 偶尔 的 停顿 。 不 要 对 Cassandra 使 Serial GC 


5 


在 include 主 配置 文件 中 的 主要 参数 包装 了 Java 的 设置 。 比 如 ， 默 认 设 置 最 大 Java 堆 内 存 为 1GB。 
如 果 你 有 一 个 拥有 更 多 内 存 的 机 器 ， 可 以 调整 这 个 设置 。 可 以 设置 相同 的 -Xmx 和 -Xms 值 来 防止 
Java 管 理 堆 增长 带 来 的 开销 。 


A a 


[$3 32 位 JVM 堆 尺寸 的 理论 最 大 值 是 4 GB。 然 而 ， 不 要 简单 地 将 JVM 设 置 到 可 用 的 全 部 4 
GB 内 存 。 这 里 包含 了 很 多 因素 ， 比 如 交换 空间 和 内 存 碎片 。 如 果 没 有 可 用 的 交换 空间 ， 简 上 
使 用 -Xmx 来 增加 堆 尺寸 不 会 获得 性 能 收益 。 i 青 况 下 ， 在 32 位 Windows 下 的 JVM 可 以 获得 
大 约 1.6GB 的 可 用 堆 空 间 ， 而 在 Solaris 下 可 以 接近 2GB。 在 64 位 系统 中 使 用 64 位 JVM 可 以 得 到 
更 多 的 空间 。 可 以 从 http://java.sun.com/docs/hotspot/HotSpotFAQ.html 获得 更 多 信息 。 


调试 这 些 设置 可 以 让 压力 测试 程序 表现 更 好 。 比 如 ， 我 的 机 器 使 用 如 下 设置 可 以 比 默认 设置 提 
=r L2 
高 15% 的 性 能 : 
JVM_OPTS=" \ 
-da \ 
-Xms1024M \ 
-Xmx1024M \ 
-XX:*UseParallelGC \ 
-XX:+CMSParallelRemarkEnabled \ 
-XX:SurvivorRatio=4 \ 
-XX:MaxTenuringThreshold=0 


在 进行 性 能 调 优 的 时 候 ， 一 个 好 的 方法 是 先 只 设置 最 大 和 最 小 堆 空间 ， 而 不 设置 其 他 值 。 只 有 
在 实际 使 用 环境 下 或 某 些 性 能 评分 系统 中 ， 使 用 扒 分 析 工 具 ， 并 观察 特定 应 用 行为 的 情况 下 ， 
才能 进入 高 级 JVM 设 置 。 如果 你 调整 了 JVM 人 参数 ， 看 到 在 使 用 负载 测试 工具 或 其 他 类 似 contrib 
中 的 Python 性 能 测试 工具 时 取得 了 好 成 绩 ， 不 要 过 于 兴奋 ， 你 需要 在 真实 世界 中 测试 ， 不 要 简 
单 复制 这 些 设置 。 


IF 
[ur 


— S: xf-FJava 6 性 能 调 优 (Java 6 和 之 前 版 本 的 操作 有 些 不 同 ) ， 可 以 参考 


http://java.sun.com/javase/technologies/hotspot/gc/gc tuning 6.html t 


译注 1: 译 者 曾 将 此 文 译 为 中 文 : http:/wangxu.me/blog/p/209， 供 参考 。 


[EN 如 果 你 遇 到 无 可 用 内 存 的 错误 ， 可 能 需要 进行 堆 来 转 储 它 的 状态 。 如 有 果 内 存 错 误 问 题解 
除 ， 这 是 一 个 很 好 的 方法 。 你 还 可 以 通过 打印 垃圾 回收 的 细 市 米 了 解 问题 。 此 外 ， 如 果 
Cassandra 中 有 很 多 数据 ， 而 且 垃 圾 回收 导致 了 很 长 的 停顿 ， 可 以 尝试 在 堆 中 内 存 不 太 满 时 就 开 
全 运行 垃 圾 回收 。 所 有 这 些 参数 如 下 所 示 : 


站 


E 


-XX:cMSInitiatingOccupancyFraction-88 \ 
-XX:*HeapDumpOnOutOfMemoryError \ 
-XX:*PrintGCDetails -XX:«PrintGCTimeStamps -verbose:gc \ 


11.10 ”小 结 


在 本 章 中 ， 我 们 看 了 Cassandra 中 可 用 的 有 助 性 能 调 优 的 设置 ， 包 括 缓存 设置 、 内 存 设 置 和 硬件 
考量 。 我 们 还 设置 并 使 用 了 Python 压力 测试 工具 ， 写 入 然后 读 出 了 一 百 万 行 数据 。 


如 果 你 对 Linux 系 统 不 太 熟 悉 ， 又 希望 在 Linux 上 运行 Cassandra (这 是 推荐 的 方式 ) ， 可 以 参考 
Jonathan Ellis 的 博客 文章 ， 其 中 介绍 了 很 多 Linux 性 能 监控 工具 ， 可 以 帮 你 了 解 底 层 平台 的 性 
能 ， 这 样 你 可 以 在 合适 的 地 方 ito 问题 。 这 篇 文章 可 以 在 
http://spyced.blogspot.com/2010/01/linux-performance-basics.html 找到 。 


终极 的 性 能 提升 手段 束 是 在 能 负担 得 起 的 范围 和 内， 配置 很 多 内 存 以 及 尽量 多 的 CPU 核 。 


第 12 章 ”集成 Hadoop 


| 


> 


Jeremy Hanna 


随 着 越 来 越 多 的 公司 和 组 织 开始 采纳 Cassandra 这 类 技术 ， 他 们 也 开始 寻找 用 于 对 数据 进行 分 析 
与 查询 的 工具 。Cassandra 内 建 的 查询 方式 配合 着 其 上 的 应 用 层 ， 提 供 了 相当 丰富 的 查询 手段 。 
不 过 在 软件 业 中 有 同样 适合 和 Cassandra 一 6 工作 的 分 } 步 式 分 析 工 具 o 


Hadoop 看 起 来 就 是 开源 海量 数据 处 理 框架 的 不 二 之 选 。 其 中 有 开源 的 MapReduce 实 现 ， 也 有 架 
构 其 上 的 高 级 查询 引擎， 如 Pig 和 Hive。 FEN Cassandra THadoopi BA 成 员 们 的 努力 ， 目 前 
Cassandra 已 经 在 与 Hadoop 及 其 分 析 工 具 的 集成 方面 有 了 显著 的 进展 。 


在 本 章 中 我 们 将 探讨 如 何 让 上 cassandra 和 Hadoop 共 同 工 作 。 首 先 ， 我 们 简 述 一 下 Apache Hadoop 
项 目的 简 史 ， 然 后 介绍 如 何 为 存储 在 Cassandra 之 中 的 数据 写 MapReduce 程 序 。 PI 我 们 将 控 
讨 与 Hadoop 之 上 的 高 级 查 询 工 具 的 集成 : o 。 E 解 了 这 些 工 具 之 后 ， 我 们 还 会 介绍 如 何 
配置 Cassandra 集 群 ， 让 这 些 分 析 可 以 分 布 式 进行 。 最 后 ， 我 们 会 分 享 一 些 使 用 H Cassandra 
Hadoop 来 共同 解决 现实 世界 问题 的 案例 。 


12.1 {f H Hadoop 


EP 


如 果 你 已 经 很 熟悉 Hadoop 了， 完全 可 以 跳 过 本 市 。Hadoop (http://hadoop.apache.org ) 是 一 组 用 
于 分 布 式 处 理 大 量 数据 M LR 。 其 中 的 Hadoop 分 布 式 文 件 系 统 (HDFS) 和 MapReduce 子 项 
B 是 Google GFS 和 MapReduce 的 开源 实现 。 


Google 发 现 ， 很 多 内 部 项 目 组 都 在 实现 类 似 的 功能 分 布 式 解决 问题 。 他 们 看 到 ， 很 多 分 

布 式 数 据 处 理 操作 都 可 以 分 解 为 两 个 阶段 ; 。map 范 数 对 原始 数据 进行 操 

作 ， 生 成 中 间 值 。reduce 对 这 些 中 间 值 进行 某 种 处 理 ， 生 成 最 终 的 MapReduce 计 算 结 果 。 通 过 对 
公共 框架 进行 标准 化 ， 他 们 可 以 创建 更 多 的 问题 解决 方案 ， 而 不 是 做 换 汤 不 换 药 的 无 用 功 。 


Doug Cutting 决 定 写 一 个 开源 应 用 ， 基 于 Google 文 件 系 统 (http://labs.google.com/papers/gfs.html 
) 和 MapReduce (http://labs.google.com/papers/mapreduce.html) ，Hadoop 就 此 诞生 。 以 此 为 起 
点 ，Hadoop 迅 速 发 展 ， 成 为 了 一 系列 处 理 海 量 数据 问题 的 工具 。 如 今 ，Hadoop 得 到 了 非常 广泛 
的 应 |  ， 使 用 者 包括 Yahoo!、Facebook、LinkedIn、Twitter、IBM ` Rackspace A KIR Z HEAS 
司 。 这 是 一 个 充满 生机 的 团队 和 一 个 成 长 中 的 生态 系统 o 


Cassandra 内 建 了 对 Hadoop MapReduce 的 支持 (http://hadoop.apache.org/mapreduce ) 。 


12.2 ”使 用 MapReduce 


PETITS 用 Java 语 言 对 存储 在 Cassandra 中 的 数据 写 一 个 简单 的 MapReduce 程 序 。 我 们 还 
会 简单 介绍 如 何 将 输出 数据 写 入 到 Cassandra， 并 讨论 正在 开发 的 工作 : 使 用 Cassandra 和 Hadoop 
Streaming 来 支持 ] ava 之 外 的 语言 。 


u^ 本 节 中 给 出 的 字数 统计 (word count) 例子 可 以 在 Cassandra 源 代码 的 contrib 部 分 找到 。 
这 个 例子 可 以 按照 本 节 的 介绍 编译 运行 。 最 好 使 用 源 代 码 包 中 的 版 本 来 运行 ， 因 为 当前 的 版 
本 相对 于 本 书 可 能 又 有 一 些 改进 了 。 不 过 ， 基 本 原理 是 一 样 的 。 


为 方便 起 见 ， 字 数 统计 MapReduce 程 序 会 运行 在 一 个 Cassandra 本 地 节点 。 关 于 如 何 配置 
Cassandra 和 Hadoop， 更 分 布 式 地 运行 MapReduce， 可 以 参考 12.5 节 。 


Cassandra Hadoop 源 码 包 


Cassandra 有 一 个 用 于 与 Hadoop 集 成 的 Java 源 码 包 ， 称 为 org.apache.cassandra. hadoop 
， 其 中 包括 如 下 内 容 。 


。 ColumnFamilyInputFormat 


我 们 将 主要 用 这 个 类 来 让 Hadoop 从 Cassandra 交 互 读 取 数据 。 它 扩展 了 Hadoop 的 
InputFormat 抽象 类 。 


ConfigHelper 


一 个 用 于 配置 Cassandra 相 关 信 息 的 辅助 类 ， 比 如 服务 器 节点 位 置 、 端 口 以 及 特 
MapReduce 任 务 相 关 的 信息 。 


Bl 


e ColumnFamilySplit 


个 类 扩 Ec da t 和 象 类 ， 对 Cassandra 数 据 进行 分 解 。 它 还 向 Hadoop 
提供 数据 的 位 置信 息 ， 这 样 可 以 任务 调度 到 存储 数据 的 节点 上 。 


e ColumnFamilyRecordReader 
从 Cassandra 读 取 单 条 记录 的 层 。 它 扩展 了 Hadoop 的 RecordReader 抽象 类 。 


此 外 ， 在 Hadoop 包 里 ， 还 有 一 些 将 数据 输出 到 Cassandra 的 相似 的 类 ， 但 是 在 本 书写 作 的 时 候 ， 
这 些 类 还 没有 最 终 完 成 。 


12.3 ”运行 字数 统计 例子 


字数 统计 是 MapReduce 仑 文中 给 出 的 一 个 例子 ， 是 很 多 初学 者 学 习 这 个 框架 的 起 点 。 它 读 入 
一 个 文本 正文 ， 统 计 每 个 不 同 的 词 的 出 现 次 数 。 这 里 我 们 给 出 一 些 代码 ， 来 对 存储 在 Cassandra 
里 的 数据 进行 字数 统计 。 在 Cassandra 的 源码 包 里 也 包含 一 份 可 以 运行 的 字数 统计 的 例子 。 
首先 ， 我 们 需要 一 个 Mapper 类 ， 如 例 12-1 所 示 。 


例 12-1: TokenizerMapper.java2s 


public static class TokenizerMapper extends Mapper&ltbyte[], 
SortedMap&lt byte[], IColumn», Text, Intwritable» { 


private final static IntWritable one - new IntWritable(1); 


private Text word = new Text(); 
private String columnName; 


public void map(byte[] key, SortedMap&ltbyte[], IColumn» columns, Context 
context) 
throws IOException, InterruptedException { 


IColumn column = columns.get(columnName.getBytes()); 
String value - new String(column.value()); 
StringTokenizer itr - new StringTokenizer(value); 


while (itr.hasMoreTokens()) { 
word.set(itr.nextToken()); 
context.write(word, one); 
} 
} 
protected void setup(Context context) 
throws IOException, InterruptedException { 
this.columnName - context.getConfiguration().get("column name"); 


熟悉 MapReduce 程 序 的 读者 会 发 现 ， 这 个 mapper 看 起 来 十 分 眼熟 。 在 这 里 ，mapper 的 输入 是 从 
Cassandra 读 取 的 行 键 值 和 相关 的 行 值 。 行 值 在 Cassandra 世 界 里 直接 对 应 为 包含 列 信息 的 映射 。 
此 外 ， 对 于 字数 统计 代码 来 说 ， 我 们 覆盖 了 setup 方 法 来 设置 我 们 要 找 的 列 名 字 。 其 余 的 mapper 
代码 就 是 普通 的 word count 实 现 。 


Ey 当 mapper 人 迭代 超级 列 时 ， 每 个 ICoLumn 都 需要 类 型 转换 为 SuperCcolumn ， 其 中 
e VASE S EL o 


接 下 来 我 们 看 一 下 字数 统计 程序 的 Reducer 的 实现 ， 如 例 12-2 所 示 。 


例 12-2: Reducer 的 实现 


public static class IntSumReducer extends 
Reducer&lt Text, IntWritable, Text, IntWritable» { 


y 
e 


private IntWritable result = new Intwritable(); 
public void reduce(Text key, Iterable&lt IntWritable» values, Context context) 
throws IOException, InterruptedException { 


int sum - 0; 
for (Intwritable val : values) { 
sum += val.get(); 


result.set(sum); 
context.write(key, result); 


在 这 个 reducer 实 现 中 ， 没 有 什么 奇怪 的 ， 没 有 Cassandra 特 有 的 东西 。 
最 后 看 看 运行 MapReduce 程 序 的 类 ， 如 例 12-3 所 示 ° 


例 12-3: WordCount 类 运行 这 个 MapReduce 程 序 


Tr 


public class WordCount extends Configured implements Tool { 


public int run(String[] args) throws Exception { 
Job job = new Job(getConf(), "wordcount"); 
job.setJarByClass(WordCount.class); 
job.setMapperClass(TokenizerMapper.class); 
job.setCombinerClass(IntSumReducer.class); 
job.setReducerClass(IntSumReducer.class); 
job.setOutputKeyClass(Text.class); 
job.setOutputValueClass(IntWritable.class); 
job.setInputFormatClass(ColumnFamilyInputFormat.class); 
FileOutputFormat.setOutputPath(job, new Path("/tmp/word count")); 
ConfigHelper.setThriftContact(job.getConfiguration(), "localhost", 9160); 


ConfigHelpe 


r.setInputColumnFamily( 


job.getConfiguration(), "Keyspacei1", "Standard1"); 


SlicePredicate predicate - new SlicePredicate().setColumn names( 
Arrays.asList(columnName.getBytes())); 


ConfigHelpe 


r.setInputSlicePredicate(job.getConfiguration(), predicate); 


job.waitForCompletion(true); 


return 0; 
} 
} 


关于 这 个 和 一 般 样 板 类 字数 统计 不 完全 相同 的 WordCcount 类 ， 有 些 事情 还 是 值得 一 提 的 。 我 们 


需要 设置 InputF 
找 的 列 名 。Cassandra 包 含 了 一 个 称 为 ConfigHelper 的 加 


12.3.1 ”将 数据 输出 到 Cassandra 


ormat 为 Cassandra 的 ColumnFamilyInputFormat ， 以 及 制定 mapper 要 查 
BER, fek 了 设置 所 需 属性 的 方法 ， 


比如 Thrift 和 连接 信息 (服务 器 和 端口 ) 、keyspace 和 列 族 等 。 它 还 允许 我 们 设置 切片 谓词 。 


在 这 个 例子 里 ，reducer 使 用 了 FileoutputFormat 输出 它 的 结果 。 像 它 的 名 字 那 样 ， 
FileOutputFormat 将 结果 写 到 文件 系统 中 去 。 在 0.7 版 本 中 ， 


将 有 一 个 基于 Cassandra 的 


OutputFormat 实现 。 在 本 章 写 作 的 时 候 ， 一 些 实现 细节 还 没有 最 终 完成 。 对 于 内 建 的 输出 格 


式 的 更 新 信息 


—i 


UL S http;//wiki.apache.org/cassandra/HadoopSupport ° 


不 过 ， 也 有 可 
列子 里 ， 这 意味 着 不 写 上 下 文 ， 而 是 直接 把 键 和 值 写 到 Cassandra 中 。 


中 。 在 这 个 


能 直接 在 Reducer 里 通过 Thrift (或 高 级 客户 端 ) 


12.3.2 ”Hadoop 流 


字数 统计 MapReduce 例 子 是 用 Java 写 成 的 。 


直接 将 数据 写 入 到 Cassandra 


Hadoop 流 (streaming) 是 Hadoop 提 供 的 允许 Java 之 外 


的 其 他 语言 使 用 标准 输入 和 标准 输出 S ue dri 


k 5ER, ce 


不 支持 Cassandra 的 MapReduce 集 成 。 不 过 这 个 支持 将 在 不 远 的 将 来 实现 。 对 于 当前 的 状态 ， 可 


以 参考 wiki ° 


12.4 MapReduce 之 上 的 工具 


MapReduce 是 为 开发 者 提供 的 一 个 伟大 的 抽象 ， 这 样 他 们 可 以 更 
多 地 考虑 他 们 要 解决 的 问 题 了 。 随 着 时 间 的 推移 ， 更 抽象 的 工具 集 也 出 现 了 。Pig 和 Hive 运 行 在 
MapReduce 之 上 ， 并 允许 开发 者 更 容易 地 进行 更 复杂 的 分 析 。 


据 之 上 。 


12.4.1 Pig 


Pig (http://hadoop.apache.org/pig ) 是 一 个 Yahoo!7 


E 少 地 考虑 分 布 式 计算 细 市 ， 更 


为 Pig Latin 的 高 级 语言 和 一 个 编译 器 ， 会 将 使 用 Pig Latin 写 成 的 


序列 。 
开发 者 们 在 集 


集成 的 工作 。 
局 写 的 方法 。 


XE 这 


通过 使 用 Pig 的 grunt shell 提 示 符 和 Pig Latin 脚 本 语 
使 用 Pig Latin 来 运行 字数 统计 例子 ， 只 要 这 样 : 


者 都 可 以 运行 在 Cassandra 的 数 


开发 的 数据 分 析 平 台 。 这 个 平台 包含 了 一 个 名 


程序 编译 为 在 MapReduce 作 业 的 


成 Hadoop， 使 用 Cassandra 中 的 数据 运行 MapReduce 工 作 的 同时 ， 还 进行 了 一 些 Pig 


言 ，Pig 提 供 了 一 种 简化 查询 代码 


LOAD 'cassandra://Keyspacel/Standardi1' USING CassandraStorage() \ 
as (key:chararray, cols:bag[col:tuple(name:bytearray, value:bytearray))); 


cols = FOREACH rows GENERATE flatten(cols) as (name, value); 
words - FOREACH cols GENERATE flatten(TOKENIZE((chararray) value)) as word; 
grouped - GROUP words BY word; 
counts = FOREACH grouped GENERATE group, COUNT(words) as count; 


ordered - ORDER counts BY count DESC; 


topten - LIMIT ordered 10; 


dump topten; 


这 个 字数 统计 只 有 8 行 长 。 


s 


e: 


| 数 进行 排序 ， 


< 


对 于 有 些 人 ， 


J, MEET EUH 


-从 BE FE PigAt E 
化 ， 从 而 获取 里 面 的 值 


编写 MapReduce 程 序 非常 乏味 而 


第 一 行 读 取 了 所 有 Standard1 列 族 的 数据 ， 描 述 了 数据 的 别名 
我 们 必须 将 值 转 换 成 一 个 字符 数组 的 类 
对 数据 按照 


四 类 型 。 我 们 从 每 行 中 提取 了 名 / 值 对 。 在 第 三 行 中 ， 
于 内 建 的 TOKENIZE 画 数 。 然 后 对 每 个 词 进行 分 组 和 技术 。 最 后 ， 
并 输出 找到 的 前 


十 位 的 词 。 


超级 列 是 很 和 


简洁 了 逢 


ZH 


供 的 介 


12.4.2 Hive 


| Hive (http://hadoop.apache.org/hive ) 


多 。 术 


编译 
可 以 看 看 如 何 配置 个 Cassandra 


比 于 只 


是 使 用 


PERM 


TAARI Ši 


新 和 文档 ， 


象 为 通 
在 本 章 写作 时 ， 


12.5 ”集群 配置 


MapReduce 和 其 他 工具 在 尝试 


使 
Pig 集 成 代码 (一 个 LoadFunc 


常 的 操作 ， 只 是 


LI 


有 


]MapReduce, Pigif/bi 


的 实现 


集群 来 


于 SQL 的 称 为 Hive-QL 的 查 
用 的 结构 


Hive 的 Cassandra 存 储 处 型 
可 以 参考 wiki 。 


o 


BST 


AREZ 


和 数 


RWE, RITA 


N 


ER 


JR ° Piget T — EH 


午 程序 员 更 简 


位 于 Cassandra 源 码 的 contrib 部 分 。 
阁 运 行 。 它 还 包含 了 一 些 如何 配 置 Cassandra 特 有 配置 选项 的 介绍 。 
分 布 式 地 运行 Pig 他 


工作 即将 完成 。 对 了 


: 务 了 会 编译 


是 一 个 数据 分 析 
询 语言 进行 查询 。 Hive 


单 地 表达 join 之 类 的 操作 。 
它 可 以 按照 目录 中 提 


码 


cV 


象 ， 让 人 


区 台 


° Hive 


物 或 解决 问题 的 时 候 ， 可 以 非 分 布 式 地 运行 。 


FHive 与 Cassandra 的 共 


但 是 


现在 ， 我 们 


为 MapReduce) o 


不 使 用 脚本 语 
Facebook 开 


A. fei 


同 使 用 的 更 


要 运行 在 生 


产 环境 中 ， 需 要 把 Hadoop 安 装 到 Cassandra 集 群 上 来 。 虽然 深入 讨论 Hadoop 的 安装 RAEO EE ] 


本 章 的 范围 ， 
可 


wei 找到 更 
《Hadoop 权 威 指南 》 


译注 


* HDFS 


Hadoop 分 布 式 文件 


1: 也 可 参考 即将 由 


因为 Hadoop 有 一 些 


人 


SH 


出 版 让 


“大 家 


e namenode 


HDFSÉS3 


T 点 o 


IL ED 


jobtracker 运 行 在 同 


系统 。 


它 拥有 存储 于 多 


不 熟悉 的 专 有 名 词 ， 我 们 这 上 


一 台 机 器 上 。 


HEX 


但 我 们 会 简单 介绍 如 何 让 Cassandra 和 Hadoop 


配置 在 一 起 以 获得 


E 


(Hadoop: The Definitive Guide ) 
出 版 的 《Hadoop 实战 》。 


FHadoop 配 置 的 信 ， 


Pan 


或 者 阅读 Tom White 的 杰作 


(O'Reilly) ! » 


LI 


L| 
LLI 


个 Datanode 的 数据 块 的 位 置信 息 ， 


些 有 用 的 定义 。 


最 佳 性 


在 小 集群 里 ， 


能 。 读者 们 


rm 


和 Cassandra 一 村 


E, 
E 


AUS 


e datanode 


为 HDFS 存 储 数 于 


e jobtracker 


MapReduce 工 作 的 主 节 点 。 jobtracker 接 收 新 工作 ， 将 了 
交 给 集群 中 的 tasktracker 完 成 。 它 负责 工作 的 完成 。 在 小 集群 中 ， 它 经 常 和 namenode 运 行 在 


同一 个 节点 上 。 


e tasktracker 


负 


上 


上 


o 


居 块 的 节点 ，datanode 和 tasktracker 运 行 在 相同 的 节点 上 。 


LIES Pa ec E 并 将 任务 


责 为 jobtracker 运 行 map 或 reduce 任 务 的 进程 。tasktracker 和 datanode 运 行 在 相同 的 服务 器 


，Hadoop 也 是 一 个 分 布 式 系统 。MapReduce jobtracker 将 任务 分 配 到 整个 集群 
尽量 贴近 数据 所 在 的 位 置 。 当 jobtracker 启 动 一 个 任务 时 ， 它 从 HDFS 得 到 数据 存储 位 置 的 信 


。 类似 地 ，Cassandra 内 建 的 Hadoop 集 成 也 会 向 jobtracker 提 供 数 据 位 置信 息 ， 这 样 任务 就 可 以 
更 接近 数据 了 。 


为 了 达到 数据 本 地 化 ，Cassandra 节 点 也 必须 是 Hadoop 集 群 的 一 部 分 。namenode 和 jobtracker 可 以 


在 Cassandra 集 群 
tasktrackerj 进 程 。 接 下 来 ， 当 一 个 MapReduce 任 
可 以 向 Cassandra 查 询 数据 的 位 置信 息 。 


12-17% 2: = 
中 至 少 有 一 


AND 


四 节点 的 Cassandra 集 群 ， 


点 需要 运行 datanode 进 程 。 少 
o EET. 集群 外 的 服务 器 运 和 


每 个 Cassandra 世 点 上 都 运行 着 tasktracker 进 程 。 集 群 


之 外 的 服务 器 上 。 Cassandra 节 点 需要 成 为 集群 的 一 部 分 而 在 每 个 广 点 上 都 运行 
E 务 启动 后 ，jobtracker 在 分 配 map 和 reduce 任 务 时 ， 


量 数 据 (分 布 式 缓存 ) 仍然 需要 HDFS， 而 一 个 单 
行 a OE o 


图 12-1: 四 节点 的 Cassandra 集 群 ， 外 部 有 namenode/jobtracker 


M 


个 


= 


客户 机 发 起 


ESI, € 


会 到 达 jobtracker。jobtracker 在 工作 提交 时 ， 通 过 开始 提 到 的 配置 


选项 得 到 数据 源 信息 。 这 时 它 可 以 使 用 Cassandra 的 ColumnFamily- RecordReader 和 


ColumnFamilySplit 来 获取 不 同 片 段 的 数据 在 集群 中 的 物理 位 置 。 之 后 ， 它 可 以 使 用 位 置信 
务 运行 在 有 相关 数据 的 节点 上 。 


(om 


将 任务 


分 配 到 集 


EE 


中 的 节点 上 ， 尽 量 让 任 


最 后 ， 当 创建 工作 执行 MapReduce 的 时 候 (直接 或 是 通过 Pig) ，Hadoop 的 配置 需要 (根据 
Hadoop 配 置 文件 ) 知道 namenode/jobtracker， 以 及 Cassandra 的 配置 选项 。 这 样 ， 集 群 就 可 以 文 
持 Hadoop 与 Cassandra 的 集成 了 。 

12.6 ”案例 

为 了 帮助 你 理解 为 什么 Cassandra/Hadoop 的 集成 是 有 趣 又 有 用 的 ， 我 们 将 会 介绍 一 两 个 Cassandra 
使 用 者 们 的 案例 。 


12.6.1 Raptr.com: Keith Thornhill 


Raptr 是 一 个 允许 游戏 玩家 相互 通信 并 共享 游戏 统计 和 成 就 的 服务 » Keith Thornhill 是 Raptr 的 高 
级 软件 工程 师 ， 他 发 现 需 要 让 他 们 的 后 台 存 储 和 分 析 更 上 一 个 台阶 。 他 们 老 的 存储 方案 和 分 析 
方法 是 最 早 的 土生 土 长 的 方法 ， 已 经 不 适应 现在 的 发 展 了 。 在 整个 数据 集中 进行 查询 非常 困 
难 ， 可 能 需要 运行 儿 个 小 时 。 
Keigh 认 为 Cassandra 是 一 个 很 有 前 途 的 存储 方案 ， 因 为 它 : 

。 内 建 的 可 扩展 性 ， 而 非 建 在 磨 架 上 的 ; 

。 对 于 读 写 访问 呈现 单一 视图 (没有 主 从 之 分 ) ; 

。 rei. 下 非常 易于 维护 (包括 节点 失败 、 增 加 新 节点 等 ,“ 直 接 可 用 ”， 只 需要 很 少 

fs E 

Keith 也 在 关注 Cassandra/Hadoop 的 集成 工作 的 演进 ， 并 把 Pig 看 做 是 一 个 他 可 以 使 用 的 分 析 解 决 
2t 案 。 起 初 他 希望 找到 通过 PHP 或 是 Python 使 用 MapReduce 的 方法 。 但 是 ， 当 他 熟悉 了 Pig 之 
后 ， 就 没有 这 样 的 需求 了 。 他 指出 ， 从 有 想法 到 执行 Pig 任 务 的 周转 时 间 可 以 非常 少 。 查 询 时 间 
也 让 人 惊喜 。 他 可 以 在 10~15 分 钟 内 遍历 所 有 数据 ， 而 非 有 个 小 时 。 作为 结果 ，Raptr 已 经 有 能 
力 寻 找 新 的 分 析 数 据 的 可 能 性 了 。 


对 于 配置 ，Keith 使 用 了 独立 的 namenode 和 jobtracker， 


^E 


tasktracker。 他 认为 ， 这 样 的 一 个 
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12.6.2 Imagini: Dave Gardner 


好 的 


副 作 


EA 


并 在 每 个 Cassandra A3-ECR T datanode/ 
就 是 ， 分 析 引 擎 也 可 以 和 数据 一 起 扩 


Imagini 为 发 行商 提供 工具 ， 通 过 “可 视 实 验 ” 和 推理 引擎 对 它们 站 点 的 访问 者 进行 分 析 。 在 幕 
后 ， 这 需要 处 理 大 量 的 行为 数据 ， 然 后 让 数据 可 以 实时 访问 。 

在 调研 了 很 多 替代 方案 之 后 ，Imagini 因 为 Cassandra 的 容错 性 、 无 中 心 架 构 (没有 单 点 失效 ) 和 
强大 的 写 能 力 而 选择 了 它 。 

Dave pique 位 高 级 开发 者 ， 他 写 道 : “我 们 使 用 Cassandra 存 放 实 时 数据 ， 包 括 大 
约 1 亿 用 户 的 信息 ， 而 且 在 未 来 一 年 中 还 会 快速 增长 。 这 些 数据 差不多 都 是 简单 的 键 值 查 找 。” 
目前 ，Imagini 从 各 种 数据 源 收集 数据 放 入 Hadoop 分 布 式 文件 系统 (HDFS) 之 中 。 使 用 Hadoop 
流 ， 他 们 使 用 PHP 对 数据 进行 MapReduce 处 理 ， 并 在 reducer 里 ， 通 过 Thrift 将 输出 直接 送 入 
Cassandra E + 在 Cassandra 中 的 结果 可 以 提供 实时 的 数据 访问 。 


Cassandra 支 持 


据 直 接 存 放 在 Cassandra 之 ， 


IB 


mL 
X 


了 Hadoop 流 ， Imagini 就 有 希望 进一步 简化 数据 流 了 。 他 们 甚至 计划 把 
， 在 数据 上 进行 MapReduce， 


然后 直接 输出 到 Cassandra ° 


12.7 小 结 


本 章 中 ， 我 们 学 习 了 Hadoop 一 一 Google MapReduce 算 法 的 开源 实现 。 


我 们 了 解 了 Hadoop 的 基本 


jpig， 一 种 简单 而 简洁 的 用 于 表达 MapReduce 工 作 的 语言 


概念 ， 然 后 通过 一 个 字数 统计 的 例子 学 习 了 如 何 将 它 与 Cassandra 集 成 在 一 起 ， 还 看 到 了 如 何 使 


最 后 ， 我 们 了 解 了 一 些 公 司 在 集成 使 用 Hadoop 和 Cassandra 时 的 状况 。 


附和 未 ” 非 关 系 型 数据 库 大 观 


Cassandra 只 是 冉冉 升 起 的 众多 新 的 非 关 系 型 数据 库 项 目 中 的 一 个 为了 了 了解 非 关 系 型 数据 库 四 


设计 目标 ， 以 及 基于 这 些 标 而 采用 的 种 和 


Ha 

M 

[S 
H 
使 用 


文 个 角度 来 描述 这 些 产品 。 从 这 个 角度 对 比 NoSQL 数 据 库 和 传统 ; 


具体 设计 ， 我 们 来 探究 一 下 这 些 不 同 的 项 


一 此 近来 ， 我 们 时 常 听 到 “NoSQL”* 这 个 名 词 ， 用 来 描述 一 些 不 使 用 SQL 的 数据 库 。 我 也 一 直 
“ 非 关 系 型 ”这 个 名 词 来 总 称 这 些 数 据 库 。 不 过 ， 本 附录 中 ， 我 们 会 解释 为 什么 不 应 该 从 


系 型 数据 库 ， 没 有 实际 意 


接 下 来 你 就 会 看 到 ， 所 有 这 些 所 请 的 : ‘NoSQL” 数 据 库 本 


2 m 


不 相同 ， 不 论 是 具体 实现 ， 


Nippon 


在 


人 
以 根据 需求 采 做 出 正确 的 这 
帮 你 理解 Cassandra 的 很 多 设计 决策 和 取舍 之 处 。 


A1 非 关系 型 数据 库 


B 
XT 


cx I 


ir 


是 目标 、 特性 、 优 缺点 等 ， 都 各 有 千秋 。 所 以 ， 比 较 “NoSQL” 和 “关系 型 "是 个 不 折 不 扣 的 


TKF, e nu ce Cassandra 非 常 擅长 做 某 些 事情 ， 但 做 其 
情 不 见 得 在 行 。 所 以 我 的 目标 是 帮助 你 理解 Cassandra 在 多 种 非 关 系 型 数据 库 中 所 处 的 位 
E 择 。 即 使 你 已 经 明确 希望 使 用 Cassandra 了 ， 这 个 调研 仍然 可 以 


党 无 疑问 ， 世 界 上 随处 可 见 那 些 没有 使 用 半点 关系 模型 的 流行 数据 库 产品 。 它们 包括 对 象 数据 


牵 、 原 生 XML 数 据 库 、 面 向 文档 的 数据 库 、 图 数据 库 以 及 刍 - 值 存储 系统 。 其 中 的 一 些 代表 产品 
已 经 使 用 很 多 年 了 ， 另 一 些 则 刚刚 开始 产品 应 用 。 我 在 这 里 讨论 几 种 非 关 系 型 数据 库 。 


SiE 有 很 多 非 关 系 型 数据 库 没 有 提 到 ， 主 要 是 因为 它们 或 者 少 有 人 问津 ， 或 者 是 专用 
充 ， 抑 或 是 还 没有 什么 具体 实现 或 是 产品 级 应 用 。 其 中 之 一 就 是 < 半 关系 型 "数据 库 


Dile, 这 是 一 种 基于 MySQL 的 产品 。 微 软 基于 SQL Server 的 云 数据 库 平台 称 为 SQL Server 
数据 服务 (SDS)。 还 有 Yahoo! 的 PNUTS 毫 无 疑问 也 是 值得 一 看 的 。 。 PNUTS 的 论文 可 以 在 这 里 


找到 : http://research.yahoo.com/files/pnuts.pdf 。 想 要 了 解 更 完整 的 非 关系 型 数据 库 ， 可 以 访 
问 Alex Popescu 的 非常 棒 的 网 站 MyNoSQL: http://nosql.mypopescu.com ° 


你 读 这 本 书 可 能 是 因为 已 经 为 自己 的 项 目 选 择 了 Cassandra 。 当 然 ， 你 也 可 能 只 是 听 说 Twitter 和 
Facebook 这 样 的 流行 网 站 在 使 用 Cassandra， 所 以 决定 来 进一步 了 解 它 。 如 果 是 后 者 ， 了 解 一 些 


竞争 产品 ， 看 看 它们 各 上 自 的 专长 、 差 异 ， 以 及 Cassandra 与 它们 相互 间 的 对 比 ， 可 能 是 非常 必要 


的 。 


所 以 来 看 看 这 些 奉 代 产 品 ， 看 看 它们 和 我 们 已 经 熟悉 的 数据 库 产 品 有 何 异 同 。 我 会 尽力 使 用 同 


一 套 分 类 名 词 来 描述 各 个 产品 的 特性 ， 以 便 进 行 比较 。 


自动 管 
TE, 


jan 


理 副 本 。 
这 对 于 很 


Zi 


总 的 来 说 ， 这 些 数据 库 都 是 分 布 式 的 ， 
不 过 也 有 例外 ， 比如 亚 
折 的 网 络 应 用 非常 重要 。 


mi 


3E 


z 


方案 


发 者 
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HH 


需要 适应 命 


些 数据 库 都 还 


们 还 集 ; 


人 


令 行 工 作 界 


在 核心 产 


Dun 


mE, MUTET 


这 意味 着 它们 的 设计 允许 用 
/ Sp d 


) 


:缺少 优秀 


的 工 


PR 


和 框架 的 支持 。 


E 然 这 些 工 具 在 RDBMS 中 已 经 


面 、 


据 库 中 ， 


很 多 正在 i 
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A. 对象 数据 库 
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获得 认可 ， 


的 设计 初 袁 是 避免 对 象 一 关系 模型 之 间 


TH 


存储 ， 


p 


LER 


I] 


子 中 回避 
对 象 一 关系 


大 


运行 得 
Æ 


1E. 


s 


非常 快 。 伯 


还 


， 都 可 以 通过 指针 来 进行 


对 象 数 
刚 起 步 


据 库 从 20 世 纪 


式 系统 


InterSystems 的 对 象 数据 库 Caché 可 能 


EIE 


C++ 应 用 中 使 用 
面 问 对 象 数据 库 有 一 些 致命 缺点 。 


会 让 


展 数 据 库 技术 


关系 型 数据 库 的 时 候 常 常 面临 这 样 


简陋 的 Shell 工 具 ， 
所 以 你 可 以 期 得 不 久 


的 问题 。 


不 放弃 那些 图 形 人 
以 及 做 一 


它们 


多 个 节点 容纳 数据 的 副本 ， 


用 在 


pus 


Ju 


IR f 


的 将 


的 “阻抗 不 匹配 ”问题 ， 


AUN 


库 中 


uÁ€ 
s 


是 直接 以 对 象 的 方式 来 存储 ， 
幸 多 余 的 SQL 代码 ， 


映射 (ORM 


操作 的 效率 。 


为 在 对 象 数据 库 里 ， 你 不 需要 月 


不 需要 使 


70 年 代 ! 


的 边缘 领域 里 获得 成 功 ， 如 计 


(POET, 


数据 存储 与 应 月 


也 
对 象 
重地 限 


数据 
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近年 来 


术 
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地 介 


有 过 为 紧 
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再 进行 应 用 


用 关系 键 值 
找 。 
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进行 join 了 
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可 能 会 
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可 以 


包括 
些 脏 活 


终端 之 类 的 工具 ， 至 少 
Cassandra 内 的 这 些 解决 


理 大 规模 扩展 的 
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为 在 这 些 数 
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来 就 有 便利 


的 数据 
E 常 直接 ] 


得 到 从 应 
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象 到 数据 


的 工具 避 


在 面向 对 象 语 
不 按照 关系 和 行 
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这 可 以 让 
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非常 


举重 ， 


十 查询 ， 


出 现 d 
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虽然 使 


上 助 设计 


但 


用 面向 对 象 数据 


密 地 耦合 在 


Eb 


列 化 写 入 
活性 。 


们 了 ° 


A3 XML 数据 库 


XML 数据 库 是 文档 数据 库 的 一 和 
草案 于 1996 年 完成 。 1998 年 2 月 ， 


到 了 广 
质 。 
yan 


Ces F 


H 


Em T NJ 


的 对 象 到 关系 型 模型 的 


数据 转换 ， 


因 


从 未 获得 


广 


为 


代码 的 复杂 性 ， 


所 


以 应 用 可 以 
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居 库 里 的 数 


四 和 应 用 里 一 


些 刚 


kA 
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(CAD) 应 用 


现在 称 为 Versant Object Database) 


^ 


库 可 以 带 来 很 


空间 应 用 


是 最 为 人 所 知 的 对 象 数据 库 商 业 产品 了 ， 此 外 ， 


， 也 可 以 在 Java、 


性 全 


起 ， 你 需要 进行 取舍 ， 看 是 


j 读 出 通常 只 匹配 同一 种 语言 


比 于 这 里 提 到 的 其 他 存储 系统 ， 对 象 数据 


i£ BN FS 


众多 互联 网 及 


ain XML 生 ” 数 据 库 很 
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库 较 少 受 到 关注 


= 


四 应 用 发 现 这 下 


在， XML 数据 库 可 以 用 于 多 和 
以 及 SOA 支 持 


XRX 架 构 


! 格 式 


不 同 的 场景 ， 


快 就 出 JN , 


这 种 更 紧 


! 特 殊 形 式 ， 专 门 为 与 XML 一 起 应 用 而 


多 
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发 布 了 1. 0 版 的 XML 标准 ， 
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最 早 的 之 一 iU Software AG 


比如 内 容 管 


ERI 


Er TH 


Buys 


jp: 现 
里 系统 、 文 档 管 理 、 出 版 


除了 刚才 已 经 提 到 的 用 法 ，XML 数 据 库 还 是 所 
近年 来 逐步 走红 的 。 这 种 架构 是 “对 称 的 "有 了 时 也 称 为 是 : 零 转换 > 的 ， 
使 用 XML。XRX 是 XForms、REST 和 XQuery 的 


器 ”(MVC) “设计 来 达到 这 和 灵活 性 的 ， 


级 特性 。 目 前 ， 还 没有 浏览 器 原生 支持 XForms， 不 过 Firefox 已 经 有 插 


(B, BEER RUN FH 里 展现 ， 比如 Open Office 或 是 Lotus 文 档 。 它 是 


在 客户 端 ，XRX 使 用 XForms， 这 是 wW3C 建 议 的 HTML 表 单 的 XML 格式 替 
描述 表单 所 需 的 种 控件 ， 不 过 它 不 强制 要 求 最 终 的 表达 形式 。 也 就 是 说 ， 


“模型 一 视 区 


“XRX 网 络 应 用 架构 ?的 中 心 ， 这 个 概念 也 是 
对 为 它 在 应 用 的 每 层 都 
FREJAS ° 


Cm, XForms] 以 
XForms 可 以 在 网 


控制 


还 允许 使 用 XML schema 验 证 、 


多 程序 库 可 以 在 服务 端 将 XForms 转 换 成 XHTML ° 


件 文 


在 中 间 层 ，XRX 使 用 RESTful 服 务 ， 甚 至 有 AER DU s 


Ap 


面 内 数据 刷 者 


使 用 原生 XML 数据 库存 储 ， 并 用 XQuery 查 询 文 档 ， 


Ll» 


XML 数据 库 已 经 被 部 分 证 明 非 常 有 用 ， 因 为 它们 人 允许 


工作 。 之 前 我 们 提 到 开发 者 使 用 面向 对 象 语 
数据 层 直接 使 用 XML 的 需求 也 与 此 类 似 。 


XML 数据 库 有 一 类 核心 功能 :人 允许 你 存储 和 查询 XML 文档。 虽然 它们 通常 都 不 直接 使 用 ' 
1 发 者 们 可 以 通过 XML 的 API 


生 ” 格 式 进行 存储 ， 但 
一 般 。 它 们 的 功能 特性 包括 如 下 几 项 。 


el 


。 使 用 XML 友 好 的 查询 机 制 ， 如 XPath 和 XQuery。XPath 是 在 文档 中 对 不 同 数 
制 ， 如 元 素 和 属性 。XQuery 提 供 了 一 个 


这 些 数据 库 通 


发 者 对 于 某 些 的 XML 文档 直接 使 


持 XForms， 也 有 很 
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言 与 关系 型 数据 库 时 面临 [ife B pL VU RO" HVL, 
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。 直接 在 应 用 中 使 用 XML 的 时 候 可 以 获得 


到 关系 型 数据 库 当 中 ， 但 是 如 果 省 略 映 


性 能 提升 。 


在 


访问 ， 这 区 好 像 后 端 使 


来 访问 数据 。 这 些 协议 都 有 自己 的 专长 ， 
。 快速 的 全 文 搜索 。 


。 关系 型 数据库 里 所 熟悉 的 功能 ， 如 跨 文档 


。 有 灵活 使 用 XML 协议 栈 ， 如 在 展现 层 使 ) 


。 其 他 特性 ， 比 如 存储 非 XML 文 档 [ 如 纯 文 本 
如 果 你 还 不 熟悉 XPath 这 种 在 XML 文档 里 查找 数 和 


jXForms ° 


( 非 结 构 化 文档 ] 。 
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用 TAME E 


昌 项 寻 址 的 机 
稳固 的 FLOWR 形 式 查询 机 制 (FLOWR 是 For、 
BEBE ) 


某 些 使 用 XML 的 应 用 不 得 不 
射 的 过 程 直接 


将 文档 映射 
使 用 XML 数据 库 将 有 很 多 好 处 。 
如 ，XML 文 档 一 般 代 表层 次 化 数据 结构 ， 而 此 结构 可 能 难以 映射 到 关系 模型 之 中 。 


。 可 以 灵活 地 访问 数据 。XML 数 据 库 让 你 常常 可 以 用 


比 


]DOM ^ JDOM ` SAX API 和 SOAP 协 议 


你 不 必 受 限于 SQL 的 单一 的 查询 机 制 。 


的 方法 ， 看 看 下 面 这 个 


XML 示例 文档 : 


能 合 的 join、 用 户 定义 画 数 、 元 数据 和 数据 的 搜索 


&ltcatalog» 
&ltplays» 
&ltplay name-'Hamlet'»&ltprice»-5.95&lt/price»-&lt/play» 
&ltplay name-z'King Lear'»&ltprice»6.95&lt/price»-&lt/play» 
&lt/plays» 
&lt/catalog» 


对 于 上 面 这 个 XML 文档 ， 下 面 的 XPath 表达 式 的 返 


为 “King Lear” 的 play 元 素 里 的 price 元 素 得 到 的 : 


回 值 应 该 是 6.95， 这 个 双 


名 称 


//catalog/plays/play/[Q8name-'King Lear']/price 


有 多 个 XML 数据 库 的 开源 项 目 和 商业 产品 可 供 选择 。 通 常 它 们 会 使 用 两 种 存储 机 制 之 一 : 基于 
文本 或 是 基于 模型 。 基 于 文本 的 XML 数据 库 通常 将 数据 存储 为 一 个 大 文本 文件 ， 或 是 字符 型 大 


对 象 (CLOB) 


， 甚 至 是 二 进 制 大 对 象 (BLOB) ， 它 们 存储 在 底层 关系 型 数据 库 中 ， 并 提供 转 


换 机 制 。 基 于 模型 的 XML 数据 库 并 个 直接 存储 XML 文档 的 文字 和 内 容 ， 相 反 ， 它 们 把 文档 转化 成 


内 部 的 面向 


发 者 呈现 为 XML 文档 的 专 有 对 象 模型 。 这 和 常常 会 把 XML 文档 拆 分 成 很 多 不 同 部 分 


(各 个 元 素 、 属 性 等 ) ， 将 它们 分 段 存 放 到 一 个 关系 数据 库 中 。 


下 面 几 节 会 简单 浏览 一 些 流行 的 XML 数据 库 。 


A.3.1 _ SoftwareAG Tamino 
Tamino 是 最 早 的 XML 原生 数据 库 之 一 。 它 是 一 个 成 熟 的 商业 产品 ， 广 泛 文 持 你 所 期 望 的 “企业 


级 "数据库 所 需 


的 各 种 功能 ， 比 如 高 可 用 。 


A.3.2 eXist 


Est 


eXist XML 数据 


库 最 初 是 Wolfgang Meier F 2000 年 创建 的 个 人 项 目 ， 并 一 直 持续 积极 发 展 至 今 。 


这 是 一 个 使 ) 
XInclude ` Web 


Java 编 写 的 开源 项 目 。 它 提供 了 对 很 多 机 制 的 支持 ， 包 括 XPath、XQuery， 以 及 


DAV (分 布 式 授权 与 版 本 ) 、 用 于 安全 的 XML 访问 控制 标记 语言 (XACML) 


p 


SOAP、REST 和 XML-RPC。eXist 还 提供 了 一 个 易 用 且 基 于 Web 的 用 于 查询 的 控制 台 。 


A.3.3 Oracle Berkeley XML DB 


Berkeley XML DB 是 一 个 用 Java 编 写 的 7 源 数 据 库 ， 最 初 是 一 个 哈佛 的 研究 项 目 ， 目 前 由 Oracle 
FF ° Berkeley XML DB 可 以 舱 入 到 应 用 之 中 ， 可 以 作为 一 个 JAR 包 放 在 应 用 里 。 它 文 持 C++、 


J ava ^ XQuery ^ 


高 可 用 和 事务 ; Dele tC 7 开发 者 而 非 DBA 设 计 ， 唯 一 与 数 


库 交 互 的 手段 就 是 写 代 码 ， 没 有 独立 的 服务 器 ， 也 没有 SQL Server Management Studio 之 类 的 


图 形 化 工具 。 可 以 用 Berkeley i] DB 混合 存储 XML 文档 和 非 结构 化 文档 。 


A.3.4 MarkLogic Server 


MarkLogic 是 由 


一 个 商业 产品 ， 


支持 XQuery 创 建 、 读 取 、 更 新 、 删 除 (CRUD) 操作 ， 全 文 搜索 ，XML 检 索 和 


事务 的 XML 数 据 库 所 支援 的 服务 器 。 它 支持 使 用 XML 文 档 或 JSON 的 REST 接 口 。MarkLogic 是 


但 对 于 小 项 目 和 非 僵 利 组 织 ， 可 以 使 用 一 个 免费 的 社区 授权 。 


A.3.5 Apache Xindice 


Apache Xindice 


* 按照 设计 ， 它 仅 用 于 小 型 或 


项 目 也 是 早期 XML 数据 库 之 一 ， 开 始 du 


i H 


等 尺寸 的 文档 


。 自 从 2007 年 ， 它 的 上 一 个 版 本 一 一 1.1 版 本 


之 后 ， 束 没有 积极 的 维护 了 ， 版 


本 1.2 的 工作 已 经 进行 了 很 多 年 了 。 


A.3.6 小 结 


实际 上 还 有 和 


恨 多 其 他 的 XML 数据 库 ， 包 括 TigerLogic、MonetDB、Sedna 等 。 不 过 ， 在 这 里 介绍 


XML 数据 库 的 


重要 目的 是 ， 为 随后 介绍 更 新 的 面向 文档 的 数据 库 做 一 些 铺 执 。 更 请 切 地 说 ， 这 


些 数据 库 的 最 大 亮点 就 在 于 ， 从 这 里 可 以 看 到 通过 将 数据 库 映 射 到 应 用 特定 架构 的 需求 而 实现 


的 优势 ， 而 非 二 


草率 地 认为 关系 型 数据 库 可 以 包 治 百 病 。 


当然 ， 如 


果 你 只 是 存储 小 型 XML 文档 ， 而 且 应 用 不 需要 文档 集合 ， 那 么 可 能 使 用 XML 数据 库 也 

不 会 获得 什么 性 能 上 的 改观 。 

A.4 面向 文档 的 数据 库 

在 关系 型 数据 库 中 ， 数 据 存放 在 表 中 ， 也 有 可 能 ， 数 据 会 被 反复 “拆散 ”， 以 便 使 用 关系 键 值 。 
2m 写 出 复杂 的 查询 语句 ， 以 便 通 P Be 得 到 所 需要 的 关系 型 数 
而 面向 文档 的 数据 库 一 般 会 有 这 样 几 个 优点 。 

。 文 档 数 据 库 的 基本 存储 单位 就 是 一 整 篇 文档 。 一 篇 文档 可 以 存储 任意 数量 的 不 限 长 度 的 
域 ， 每 个 域 可 以 存储 多 个 值 。 在 这 方面 ， 文 档 数据 库 与 关系 型 数据 库 的 不 同 就 在 于 ， 后 对 
每 个 记录 的 所 有 域 都 必须 有 值 。 

。 在 一 个 面向 文档 的 数据 库 中 ， 不 需要 像 RDBMS 中 那样 ， 在 没有 值 可 存 的 时 候 存储 “ 空 " 域 。 
这 就 节省 了 数据 库 的 空间 。 

。 它们 都 不 需要 schema， 形 式 上 非常 随意 。 

。 可 以 对 每 个 文档 单独 设 定安 全 级 别 。 

。 PU ul Ed 寺 全 文 检索 。 少 数 RDBMS 也 能 提供 这 个 功能 ， 但 在 面向 文档 的 数据 库 中 就 非 
那么 ， A CE 存储 为 JSON 格 式 (参考 “何谓 JSON”) ; 也 可 以 是 
XML， 前 面 已 经 单独 讨论 了 使 用 XML 的 文档 数据 库 ， 还 可 能 是 YAML 文 档 (大 部 分 JSON 文 档 都 
可 以 被 YANL 解 析 器 解析 ) ; 还 可 能 是 其 他 格式 ， 因 为 有 太 多 的 其 他 选择 。 任 意 两 个 文档 数据 库 
的 实现 技术 都 不 相同 。 举 例 来 说 ，CouchDB 把 数据 存储 为 JJON， 而 历史 悠久 的 Lotus Notes 则 使 

它 自己 的 内 部 格式 。 
何谓 JSON 


JSON 是 JavaScript Object Notation (JavaScript 对 象 标 记 ) 的 缩写 ， 


是 一 种 可 以 替代 XML 的 数据 


Y Anh m d kem y 3 MA EL 
交换 格式 。 一 个 简单 的 用 于 存储 地 址 筹 里 的 联系 人 信息 的 JSON 文 档 大 致 会 是 这 样 的 : 
"contact": ( 
"fname": "Alison", 
"lname": "Brown", 
"address": ("street": "301 Park Ave", "city": "New York", "state": "NY", "zip": "10022"], 
"phone": [ 
( "type": "mobile", "number": "480-555-5555" j, 
( "type": "home", "number": "212-444-4444" } 
] 
} 
J 
MA X = = b bm MA 
同样 的 信息 ， 用 XML 表述 应 该 是 这 个 样子 的 ; 
&ltcontact» 
&ltfname»Alison&lt/fname»&ltlname»Brown&lt/lname» 
&ltaddress» 
&ltstreet»301 Park Ave&lt/street»&ltcity»-New York&lt/city» 
&ltstate»NY&lt/state»&ltzip»10022&lt/zip» 
&lt/address» 
&ltphone type-"mobile"2480-555-5555&lt/phone» 
&ltphone type-z"home"2212-444-4444&1lt/phone» 
&lt/contact» 


JSON 只 支持 少量 数据 类 型 ， 没 有 XML 提 供 的 那么 丰富 。JSON 支 持 的 数据 类 型 包括 数字 、 
Unicode 字 符 串 、 布 尔 、 数 组 、 对 象 和 空 。 


在 上 面 这 个 JSON 文 档 中 ， 你 可 以 看 到 一 个 带 有 几 个 属性 的 联系 人 对 象 。 名 和 姓 以 字符 串 形式 
存储 。 地 址 属性 是 一 个 对 象 ， 因 为 它 也 定义 了 自己 的 属性 。 最 后 ， 电 话 属性 有 一 个 数组 值 ， 
使 用 方 括号 表示 ， 里 面 的 类 型 属性 是 重复 出 现 的 。JSON 的 互联 网 媒体 类 型 是 
application/json » 


JSONX?yfE1999ESLIS BL D, [HECEIEULE, DJEAUE GAIA T BEBRHUXML DIR EE FREI 
工具 和 API 时 ，JSON 才 迅速 流行 起 来 。 一 个 简单 的 事实 就 是 ，JSON 文 档 通 常 比 XML 文档 短 
c RUE 始 使 用 JSON 作 为 其 GData 协 议 的 格式 ， 这 在 很 大 程度 上 提高 了 JSON 
JA RE o 


相对 于 XML 文档 ，JSON 文 档 更 加 轻 量 级 ， 虽 然 XML 在 很 多 平台 上 都 有 广泛 的 工具 支持 ， 但 
JSON 文 档 非 常 简 单 ， 交 互 时 也 需要 更 少 的 工具 支持 。 对 于 某 些 应 用 来 说 ，JSON 的 一 个 潜在 
的 缺点 是 ， 没 有 XML schema 那 样 的 方式 可 以 直接 验证 文档 结构 。 


在 直接 表示 数据 的 时 候 ， o 都 经 常 使 用 SON Br 
以 它 很 值得 单独 介绍 ， 在 本 书 中 ， 也 经 常见 到 JSON 的 : 


你 可 以 把 面向 文档 的 数据 库 当 做 是 一 些 键 一 值 集 合 ， 把 它们 看 做 是 稍 后 在 A.6 节 讨论 的 “ 键 一 值 
存储 和 分 布 式 哈 希 表 ” 的 前 身 。 这 里 有 一 个 简单 的 JSON 文 档 : 


各 | 


"title": "I Heart LolCatz", 

"author: "Inigo Montoya", 

"ts": Date("31-Dec-99 11:59"), 

"comments": [{ 

"author": "Robert Zimmerman", 

"comment: "I'm just a song and dance man"}, ( 
"author": "Rogers Nelson", 

"comment: "I'm just a song and dance man"; 


J 


看 起 来 似乎 很 简单 ， 而 考虑 一 下 如 何 用 关系 数据 库 里 的 表 来 表达 一 个 如 此 简单 的 数据 结构 ， 
可 能 就 不 是 那么 容易 了 。 但 在 面向 文档 数据 库 里 ， 存 储 的 就 是 这 个 文档 ， ids 
会 非常 简单 。 


A.4.1 IBM Lotus 


Lotus 最 时 的 版 本 发 布 了 1989 年 ， 可 能 是 所 有 面向 文档 的 数据 库 的 灵感 来 源 ， 包 括 CouchDB 和 
MongoDB。Lotus 是 一 组 用 二 协作 的 软 人 F 产 品 套 件 ， 包 括 用 于 email、 讨 论 和 日 历 的 Lotus Notes 和 
Domino， 以 及 用 于 即时 消息 的 Lotus Sametime 及 其 他 组 件 。 


。 网 站 : http://www.ibm.com/software/lotus 
。 面 向 : 文档 


。 人 。 和 截止 到 本 书写 作 时 的 最 新 版 本 是 2010 年 3 月 发 布 的 
8.5 o 


e schema: 不 需要 schema » XH (“notes”) 存储 在 称 为 Notes 存 储 文 件 (NSE) 的 自 有 格式 
内 ， 但 可 以 看 做 是 一 种 具有 与 JSON 类 似 建 模 目 的 的 文档 。 


。 客户 端 : 最 新 版 本 的 最 终 用 


PE 


端 是 基于 Eclipse 的 。 要 与 Domino 数 据 


车 交互 ， 可 以 使 用 


C、C++ 或 是 Java 的 API。Notes 的 数据 库 是 非 关 系 型 的 ， 但 可 以 使 用 一 个 SQL 驱 动 来 访问 


| 而 且 Domino XML 语言 还 提供 了 全 部 数据 的 XML 视图 ， 你 可 以 使 用 XML 工具 处 理 数 
。 CAP: Lotus 可 以 集群 化 并 进行 副本 复制 。 
。 产品 应 用 : ”Lotus 在 很 多 企业 中 都 作为 员工 协作 工具 使 用 。 
A.4.2 Apache CouchDB 
作为 一 种 数据 库 ，CouchDB 可 能 是 和 Lotus Notes 最 为 相似 的 了 。 这 并 不 奇怪 ， 它 的 创始 人 
Damien Katz 在 决定 始 创建 这 个 项 目 Notes 相 关 工作 的 ， 后 来 开始 感 


H H 


使 / 


CouchDB 最 有 趣 的 特 
操作 ， 


到 它 可 以 作为 一 种 “为 Web 而 生 的 ”数据 库 ， 才 开始 了 
相同 的 schema，， 


可 


以 通过 视图 进行 查询 ， 


写 操作 也 不 会 B 


性 之 一 是 多 版 本 并 


之 中 ， 
意味 着 文件 可 


这 样 就 很 


(CouchDB: The Definitive Guide ) 


难 破 坏 数据 文件 了 。 这 个 实现 和 Cassandra 有 
能 会 很 


快 束 增 长 到 很 大 ， 需 要 一 


。 网 站 : ”http://couchdb.apache.org 


。 产品 应 用 : ”CouchDB 在 本 书写 
了 对 应 产品 


。 附加 特性 : 支持 MapReduce、 了 


发 控制 (MVCC) 


视 


CouchDB 项 
图 是 通过 JavaScript 范 数 构成 的 a 


。MVCC 意 味 着 读 操 作 将 不 会 阻塞 写 
日 塞 读 操作 。 为 了 文 持 这 个 特性 ， 所 有 的 写 操作 都 作为 追加 写 加 入 到 文档 


° CouchDB: 


个 后 台 


些 相似 ， 


但 使 用 一 个 纯 追 加 写 模型 


进程 来 进行 压 紧 操作 。 


S Vo 如 果 你 希望 更 多 地 了 解 CouchDB， 可 以 参阅 OReilly 的 《CouchDB 权 威 指南 》 
， 由 J. Chris Anderson ` Jan Lehnardt 和 Noah Slater 合 著 。 


面向 : 文档 

创建 : 开始 于 2005 年 ，2008 年 成 为 Apache 久 化 器 项 目 。 

实现 语言 : Erlang 

分 布 式 : 是 ， 离 线 时 数据 也 可 以 被 用 户 和 服务 器 读 取 或 更 新 ， 在 之 后 ， 所 有 的 变更 都 可 以 
进行 双向 同步 。 

schema: 不 需要 schema。 文 档 可 以 全 部 以 JSON 格 式 存储 。 每 个 文档 有 唯一 的 ID。 
客户 端 : RESTful 的 JSON API 人 允许 任何 可 以 发 起 HTTP 请 求 的 语言 访问 。 

CAP: 最终 一 致 性 。 具 有 副本 复制 机 制 ， 用 于 同步 不 同 节点 上 的 多 份 数据 副本 。 与 很 多 关 
系数 据 库 类 似 ，Couch 提 供 了 ACID 语义 。 


己 经 有 


芷 时 仍然 没有 完成 1.0 发 布 ， 但 在 多 个 社交 网 站 和 软件 应 用 中 
° 参考 http://bit.ly/dn73DY 中 的 产品 应 用 列表 。 


A.4.3 MongoDB 


曾 量 副 本 复制 和 容错 性 。 


带 有 Web 控 制 


& 


MongoDB 可 能 和 CouchDB 最 为 相似 。 它 则 在 融合 键 值 存储 、 、 对 象 数据 库 和 


RDBMS 的 精华 之 处 。 有 具体 地 说 ， 它 和 键 值 存储 一 样 自 动 分 片 
schema 文 档 ， 并 提供 关系 数据 库 形式 的 丰富 的 查询 语言 。 


VS 必 如 果 你 希望 更 多 地 了 解 MongoDB， 可 以 参阅 O’Reilly 的 《MongoDB 权 威 


IC 


(MongoDB: The Definitive Guide ) 1 ， 由 Kristina Chodorow 和 Michael Dirolf &7& ° 


译注 1: 本 书 已 由 人 民 邮 电 出 版 社 出 版 。 


网 站 : http://www.mongodb.org 

面向 : 文档 

。 创 建 由 Geir Magnusson 和 Dwight Merriman 在 10gen 开 发 。 
。 实现 语言 : C++ 

。 分 布 式 : 是 

e schema: 存储 JSON 风 格 的 文档 ， 可 以 使 用 动态 schema。 


。 CAP: MongoDB 对 所 有 分 片 都 使 用 单 主 节点 的 方式 ， 可 以 达到 完全 一 致 性 。 


基于 JSON 的 动态 


8 南 》 


。 产品 应 用 : ”MongoDB 的 用 户 包括 SourceForge ` Bit.ly ` Foursquare ` GitHub ` Shutt-erfly ` 


Evite、 纽 约 时 报 、Etsy 和 很 多 其 他 公司 。 


。 附加 特性 : 支持 MapReduce。 有 一 个 很 简洁 的 Web 界 面 ， 可 以 让 你 在 浏览 器 里 


使 用 


JavaScript shell 来 党 试 MongoDB。 可 以 在 这 里 访问 : http://try.mongodb.org ° 


A.4.4 Riak 


Riak 是 一 个 基于 Amazon Dynamo 的 混合 型 数据 库 ， 既 是 面向 文档 的 ， 也 是 分 


布 式 键 一 值 存储 


的 。Riak 具 有 容错 性 ， 可 以 线性 扩展 ， 是 为 互联 网 应 用 而 设计 的 。Riak 和 Cassandra 有 些 相似 ， 


也 没有 中 心 控制 器 ， 上 自然 也 就 没有 单 点 失效 。 


Riak 的 设计 中 有 三 个 基本 元 素 : 桶 (bucket) 、 键 、 值 。 数 据 组 织 在 桶 中 ， 


Riak 的 实现 者 Basho Technologies， 同 时 提供 了 商业 版 本 和 开源 版 本 。 
Riak 可 以 在 大 部 分 Unix 类 操作 系统 上 运行 ， 但 不 文 持 Windows。 

。 网 站 : http://wiki.basho.com 

。 面 向 : 文档 与 键 值 存储 

。 创 建 者 : 麻 省 剑桥 的 Basho Technologies， 这 个 公司 由 Akamai 的 架构 中 


桶 大 致 相当 于 一 个 平 
坦 的 命名 空间 ， 用 于 在 SR Ent 对 。 这 和 Google 的 存储 系统 在 设计 和 命名 上 都 和 ei à 


HF 20084 


a 


。 实 现 语 言 : 主要 是 Erlang， 部 分 
。 分布 式 : 是 


使 用 C 和 JavaScript 


F 创 建 。 


副本 复制 : 可 以 在 桶 级 设置 副本 复制 机 制 。 


schema: Riak 是 无 shema 的 ， 不 使 用 特定 的 数据 类 型 。 
以 不 透明 的 BLOB 形 式 存 储 ， 


客户 端 : Riak 提 供 了 三 和 
PHP、JavaScript 和 Ruby 语 言 的 驱动 ， 还 有 
是 一 个 Google 的 高 速 RPC 项 目 ， 之 前 是 Google 内 部 使 用 的 ， 
http://code.google.com/p/protobuf/ 访问 。 


CAP: Riak 和 Cassandra 非 常 类 似 ， 这 个 数据 库 也 人 允许 
受 性 的 级 别 。 


。 产品 应 用 :”Riak 的 客户 包括 Comcast 和 Mochi Media ° 
。 附加 特性 : Riak 可 以 和 MapReduce/Hadoop 集 集成 。 


持 跨 数据 中 心 的 同步 (开源 版 本 只 支持 单数 据 中 心 内 同步 ) 
持 简 单 网 络 管理 协议 (SNMP) 。 

A.5 图 数据 库 

图 数据 库 是 关系 数据 模型 的 又 一 种 替代 模型 。 你 可 以 把 图 想 成 一 个 


Riak 的 商业 版 了 


现在 可 以 在 


户 来 调整 一 致 性 、 


存储 在 表 或 者 列 里 ， 而 是 使 用 三 个 基本 元 素来 代表 数据 : 
据 库 中 ， 节 点 是 一 个 独立 的 对 象 ， 不 依赖 于 其 他 任何 东西 边 依赖 于 两 个 节点 
或 边 的 一 些 属 性 内 容 。 比 如 ， 个 人 节点 ET 可 能 会 有 一 个 姓 名 属性 和 一 


点 和 边 都 可 以 拥有 与 之 关联 的 属性 。 


图 A-1 示 意 BT PARANT 点 和 五 条 边 的 图 数据 库 。 边 可 以 描述 
只 有 一 个 名 称 属性 。 可 以 看 到 ， 条 边 是 双向 的 。 例 


里 LAUS 点 都 有 


LM 


$ 


name) ， 但 它们 都 可 以 多 种 不 同 附加 属性 。 
的 "， 也 就 是 说 ， 图 
转换 ， 就 可 以 让 数据 符合 数据 库 的 约束 条 件 。 


图 数据 库 的 一 个 很 好 的 特点 
数据 模型 看 起 来 和 我 们 把 事物 搬 到 白板 上 的 样子 很 相像 ， 不 需要 任何 多 余 的 


KRH Enterprise DS, 
， 拥 有 一 个 Web 控 制 台 ， 并 支 


多 种 关系 ， 


—— 


和 键 对 应 的 值 是 对 象 。 所 有 的 数据 
所 以 可 以 在 Riak 中 存储 任何 类 型 的 数据 。 


主要 的 交互 方式 : JSON/HTTP 的 API; Erlang ` 
个 Protocol Buffers 客 户 端 接 


Python ^ Java ^ 
° Protocol Buffers 


可 用 性 和 分 区 奈 


还 文 


网 络 。 图 数据 库 的 数据 不 是 
市 点 、 边 和 属性 p o 在 图 数 
E TELE D ER 
个 email 属 性 ° 节 


在 这 个 例子 中 ， 
个 属性 


是 “白板 友好 


是 它们 
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图 A-1: HÆRRA 


EUSGREERIEVIEDU AR ROBORIS 司 在 于 ， 比 如 键 一 值 存储 ， 在 图 数据 库 中 ， 不 仅仅 是 
， 边 也 是 一 等 公民 。 这 就 是 说 ， 尽 管 很 多 我 们 使 用 过 的 编程 语言 和 数据 库 人 允许 表 RM 
& 但 这 些 关 系 本 身 都 是 间接 的 〈 比 如 通过 外 部 键 值 或 是 指针 ) 。 但 在 图 数据 库 中 ， 关 系 和 六 
是 平等 的 ， 因为 节点 间 的 关系 在 某 些 应 用 场景 中 可 以 占据 中 心地 位 。 例 如 ， 图 数据 库 在 近年 
变 得 很 流行 ， 因 为 它们 刚好 适用 于 社交 网 络 领域 ， 并 可 以 很 好 地 适用 于 Web 2.0 社 交 网 络 中 的 
各 种 查询 ， 因 为 关系 刚好 就 是 社交 网 络 的 精髓 所 在 。 图 数据 库 的 第 二 个 重要 的 而 且 处 于 增长 之 
c mercem 在 语义 网 络 中 ， 谓 词 和 主语 、 宾 语 在 三 者 具有 同样 的 地 位 ， 构 成 三 


在 过 去 15 年 中 ， 有 两 个 关键 趋势 决定 了 图 数据 库 作为 一 种 重要 的 数据 存储 形式 的 崛起 。 其 一 是 
ee MA 其 二 是 数据 之 间 的 关联 的 增长 ， 这 两 个 趋势 就 使 得 图 数据 库 Hh E 
T ZUJF 


以 图 A-2 所 示 的 简单 的 时 间 线 为 例 。 从 20 世 纪 90 年 代 初 开始 ， 文 本 文档 和 相互 链接 的 简单 网 页 展 
示 了 互联 网 的 大 量 内 容 。 这 些 文档 是 直接 存储 的 ， 而 且 易 于 使 用 关系 型 数据 库 来 生成 。 之 后 在 
本 世纪 早期 ，RSS 订 阅 、 博 客 和 维基 开始 崛起 ， 自 动 化 和 引用 链接 的 新 方式 威胁 到 了 关系 模 
型 。 vds Web 2.0 开 始 崛 起 (或 者 按照 Sun 的 Jonathan Schwartz 的 定义 ， 称 为 用 户 参 与 的 
时 代 ) ， 分 众 、 标 签 云 和 分 类 开始 走 入 我 们 的 视野 ， 所 有 这 些 既 为 机 器 的 资源 消耗 和 接口 而 优 
化 ， 也 为 人 们 使 用 而 优化 。 我 们 开始 不 再 把 网 络 看 做 是 像 一 页 页 的 杂志 那样 ， 通 过 动态 地 从 一 
个 关系 数据 库 取 出 相关 数据 组 织 而 成 ， 现 在 ， 我 们 觉得 网 络 不 仅 是 一 种 数据 的 表现 方式 ， F 
种 概念 的 表达 。 高 速 互联 网 基础 设施 的 逐渐 完善 ， 使 得 社交 网 络 站 点 出 壮 成 长 。 很 多 人 突 
被 联系 到 了 一 起 ， 互 联网 为 他 们 提供 了 新 的 交互 方式 ， 而 不 仅仅 是 阅读 
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图 A-2: 管理 大 规模 数据 的 需求 正在 增加 ， 而 且 还 将 继续 


当 互 联网 


始 构建 重要 的 语义 
于 始 被 迫 TRAZ E R EREM 


构成 的 一 个 
系 的 概念 。 


] 正 在 进 
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OE 


新 的 Web 3.0 时 代 ， 这 
ontology) 将 支持 起 超 连 结 (superconnected) 的 


巨大 的 图 。 


这 里 ， 图 


与 许多 面向 
增长 和 变化 


文档 
来 调 


整数 据 


i d 
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的 增长 ， 可 以 提供 更 高 效 的 查询 。 


模 。 
新 发 现 的 关 


75 


H 
本 


图 数据 库 
http: 
处 理 图 数据 


RE, fü 
//wiki.github.com/tinkerpop/gremlin 中 的 Gremlin 项 目 。 
F 源 程序 语言 


系 和 属性 


寺 于 RDBMS ， 图 数据 库 最 本 质 的 
使 用 它们 的 方式 存储 到 数据 库 中 ， 讽 
像 键 一 值 存储 与 面 


zit, 


数据 库 意 义 更 加 显 


吉 构 。 因 为 它 不 是 关系 模 


向 文档 的 数据 库 一 样 ， 
来 发 展 schema 。 
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量 的 爆炸 ， 这 时 ， 最 大 的 互联 网 
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研究 者 和 爱好 者 最 近 发 表 看 法 认为 ， 
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EHEZ) 


` 微 格式 和 本 体 


Ea 


数据 


时 网 


络 ” 高 淹 ， 这 将 是 世 贡 上 的 所 有 知识 局 


而 易 见 ， 


的 数据 库 类 似 ， 图 数据 库 一 般 不 要 求 schema 的 形式 ， 
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没有 必要 ， 图 数据 库 随 着 数据 集 
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join 
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优点 是 没有 所 谓 阻抗 不 
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你 对 社会 化 网 络 和 语义 网 络 应 用 
HypergraphDB ^ Due do ce OB 我 还 建议 你 看 看 


EHHA 


这 里 只 


介绍 


两 种 图 数据 库 ， 但 是 


是 


作 时 它 还 
http: 


PI 


图 数据 库 感 兴 


。Gremlin 可 以 从 Java 虚 


1:210. 2/008 


» Hama 


多 年 了 ， 


SU. 


H n] 


F 放 源 代 码 。 


ES 


， 如 


你 是 


个 Hadoop 使 用 者 ， 


在 此 未 一 一 讨论 的 


、 图 分 析 和 
中 运行 ， 它 的 实现 遵从 JSR223。 


还 可 以 看 看 Hama 项 目 ， 本 书写 


还 可 以 研究 


EE 


Gremlin 是 一 个 为 进行 查询 


拟 机 


个 在 Hadoop 上 构建 的 包 ， 
//incubator.apache.org/hama 。Google 还 有 一 个 称 为 Pregel 的 项 目 
并 | 


支持 大 量 矩 阵 和 图 数据 。 参 考 这 里 


s 


他 们 内 部 使 用 这 个 项 目 很 


KJ 


FGoogle 的 Pregel 相 关 的 信息 可 以 看 这 里 : 


http://googleresearch.blogspot.com/2009/06/large-scale-graph-computing-at-google.html ° 


A.5.1 FlockDB 


EAH 


20104 
FlockDB7 
及 谁 封锁 


次 读 操 作 。 


, Twitter E. 


了 谁 。FlockDB 可 以 水 了 
量 。Twitter FlockDB 集 群 存储 了 超过 130 亿 条 边 ， 


宣布 他 们 在 GitHub 上 3 
发 存储 Twitter 中 的 跟随 者 (follower) 的 邻接 列表 ， 


开源 了 3 


EE 


新 的 图 数据 库 ， 
展 ， 其 设计 应 用 场景 的 特征 是 : 


称 为 FlockDB。 他 们 创建 了 
这 样 就 可 以 了 解 到 谁 跟 随 了 谁 ， 以 
在 线 的 、 低 时 延 和 高 吞 叶 


服务 峰 


直流 量 达 到 每 秒 钟 2 万 次 写 操作 和 10 万 


。 网 站 : http://github.com/twitter/flockdb 


。 面向 : 


图 


。 创 建 : 2010 年 


。 实现 语言 : 


。 授权 方式 : Apache 


。 分 布 化 : 


e schema: 


仅仅 和 希望 解决 那些 a 关系 
有 四 | 个 属性 : 


。 客户 端 FlockDB 使 用 


接口 。 


。 副 本 复制 机 制 : 


Scala 


E 


AE 


FlockDB 的 schema 非 常 简单 直 
图 与 数 和 


一 个 源 ID、 


有 


Twitter 创建 


F 可 证 (第 2 版 ) 


大 


接 ， 


为 FlockDB 


Thrift 0.2 


。 底层 存储 : MySQL 


。 产 品 应 用 :Twitter 


BR TUB ORI IIR 。 
的 ID、 一 个 位 置 和 一 个 状态 。 


端 ，Twitter 还 写 了 一 个 Ruby 的 前 端 ， 


不 想 解 决 所 有 的 数据 库 问 题 ， 
。FlockDB 的 图 里 


包含 的 条 目 


提供 了 更 丰富 


。 附加 特性 : FlockDB 人 允许 快速 对 包含 上 百 万 个 条 目的 查找 结果 集 进 行 分 页 ， 支 持 对 边 进行 
归档 和 恢复 操作 。 它 松 看 合 地 使 用 了 Kestrel， 作 为 可 靠 的 消息 队列 服务 ， 然 后 随机 选择 服 
务 器 来 写 入 数据 ， 所 以 没有 服务 器 间 通 信 (没有 集群 操作 、 没 有 组 播 等 ) 
A.5.2 Neo4J 
Neo4J 是 一 个 兼容 ACID 属性 的 图 数据 库 ， 特 别 为 快速 的 图 遍历 而 优化 。 文 持 
JTA/JTS、 两 阶段 提交 、 死 锁 检 测 以 及 MVCC。Neo4J 早 在 2003 年 就 有 产品 应 用 了 ， 这 让 它 成 为 
EE 个 存储 系统 。 在 一 个 JVM 上 ，Neo4J 可 以 扩 展 到 数 十 亿 个 条 目 (节点 、 边 、 属 
p UMOR SUM 之 中 ， 很 容易 就 可 以 设置 并 运行 Neo4J， 并 且 可 以 灵活 地 在 应 
之 中 使 ) 
。 网 站 : http://neo4j.org 
。 面 向 : 图 
。 创建 : 由 Neo Technologies 于 2003 年 创建 ， 并 开始 产品 应 用 。 版 本 1.0 发 布 于 2010 年 2 月 。 
。 实现 语言 : Java 
。 许 可 证 : 开源 许可 证 为 AGPLv3， 使 用 商业 许可 证 可 以 获得 更 多 的 特性 o 
。 分 布 化 : 可 以 使 用 RMI 进 行 远程 通信 。 注 意 : 免费 版 本 的 Neo4J 是 不 
能 分 布 到 多 台 上 的 。 
e schema: ”Neo4J 是 一 个 由 无 schema 的 节点 、 边 和 可 选 属性 构成 的 图 。 


。 客户 端 : 有 多 种 选择 : Neo4J 可 以 作为 一 个 REST 服 务 器 来 启动 ， 这 样 就 可 以 使 用 简单 的 
HTTP 操作 、 用 JSON 进 行 操 作 ; Neo4J 还 有 一 个 shell 客 户 端 界 面 。Neo4J 有 各 种 语言 的 文 
持 ， 包 括 Java、Python、Ruby、Clojure、Scala 以 及 PHP。 可 以 通过 Neo4j.py 来 查看 Jython 和 
CPython 接 口 ， 通 过 Neo4j.mb 查 看 JRuby 支 持 。Neoclipse 是 一 个 Eclipse IDE 的 插件 ， 为 图 提供 

了 图 形 化 展现 界面 ， 有 个 Grails 的 接口 。 


。 副 本 复制 机 制 ， 截止 到 本 书写 作 的 时 候 ，Neo4J 的 副本 复制 功能 仍然 在 开发 中 。 它 的 主 从 
副本 复制 的 设计 基于 MySQL 中 使 用 的 副本 复 和 机制， 可 以 对 他 塌 从 实例 与 数 所 锁 协 调和 
改变 分 布 机 制 等 则 由 主 实例 控制 。 你 可 以 调节 合适 的 一 致 性 级 别 ， 通 过 有 要求 Neo4J 同 步 写 到 
主 从 节点 上 来 达到 强 一 致 性 ， 也 可 以 在 写 操作 时 使 用 异步 传播 到 从 节点 的 方式 ， 通 过 最 终 
一 致 性 来 换取 更 好 的 性 能 。 


存储 客户 磁盘 存储 
产品 应 用 : box.net^ ThoughtWorks 


附加 特性 : 因为 Neo4J 是 图 数据 库 ， 所 以 可 以 很 好 地 应 用 在 语义 网 络 应 用 之 中 。 人 允许 执行 
SPARQL 协 议和 RDF 查 询 语言 (SPARQL) 与 资源 描述 框架 进行 交互 ， 并 作为 部 分 的 网 络 7 
体 语 言 (OWL) 存储 。 


Neo4J 可 以 和 Apache Lucene/Solr 和 集成， 以 存储 外 部 索引 来 进行 更 快 的 全 局 检索 。 索 引 在 分 布 式 
数据 库 中 可 以 看 做 是 一 个 字典 一 -从 一 个 键 指向 一 个 值 的 直接 指针 。 


Neo4J 的 版 本 1.1 将 会 带 有 一 个 事件 框架 。 


A6 键 一 值 存储 与 分 布 式 哈 希 表 


在 关系 模型 中 ， BIERE ENE, 域 要 求 使 用 什么 样 的 表 ， 然 后 考虑 如 何 将 表 范 式 化， 来 避 
免 数 据 重复 。 表 、 表 中 定义 的 列 以 及 表 之 间 的 关系 就 是 我 们 的 schema 。 


但 是 ， 在 键 一 值 存 储 中 ， 通 党 不 需要 预先 定义 这 样 的 schema。 域 在 这 里 成 为 了 桶 ， 你 可 以 向 桶 
ny rm 数据 项 是 包含 一 组 属性 的 键 值 。 所 有 数据 都 与 键 值 相关 联 ， 按照 键 值 存储 在 一 
起 ， 这 和 关系 型 数据 库 引 以 为 做 的 范式 化 模型 形成 了 鲜明 的 对 比 : 数据 常常 是 有 重复 的 。 昌 然 
键 一 值 存 储 有 一 些 变种 ， 而 且 ， 有 一 些 概念 和 列 数 据 库 有 些 重 霉 。 


另 一 个 对 比 关 于 建 模 。 使 用 关系 型 数据 库 工 作 时 ， 我 们 倾向 于 仔细 考虑 schema， 确 信 我 们 要 问 
数据 库 的 所 有 问题 都 可 以 解答 。 因 为 这 些 问 题 一 一 查询 一 一 在 模型 中 是 次 要 问题 ， 它 们 可 能 会 
非常 复杂 。 你 肯定 看 到 过 那些 使 用 了 多 个 join、 子 查询 、 聚 集 画 数 、 临 时 表 等 的 复杂 SQL 语句 。 
但 在 列 状 模型 中 ， 我 们 倾向 于 首先 考虑 查询 ， 这 些 春 询 帮助 我 们 决定 了 如 何 设计 三 。 列 数据 库 
bd 为 了 保证 数据 库 可 用 ， 我 们 需要 数据 副本 ， 因 为 磁盘 空间 很 廉价 ， 所 以 数据 重复 
完全 BE o 


数据 完整 性 是 另 一 个 差异 点 。 数 据 完 整 性 是 指 应 用 中 数据 的 完全 和 一 致 性 的 程度 。 关 系 型 数据 
库 具 有 保证 数据 完整 性 的 能 力 ， 比 如 主键 〈 保 证 数据 项 的 完整 性 ) 以 及 外 部 键 约 束 (保证 引用 
完整 性 ) 。 但 在 键 一 值 存 储 之 中 ， 保 证 数据 完整 性 的 责任 完全 交 给 应 用 完成 。 


考虑 一 个 例子 : 你 在 数据 库 中 存储 了 客户 和 订单 信息 。 在 关系 型 数据 库 中 ， 必 须 在 数据 库 中 定 
义 引 用 键 值 来 允许 join 表 ， 以 及 进行 诸如 查看 一 个 特定 用 户 所 有 订单 这 样 的 操作 。 虽 然 在 键 一 值 
存储 中 也 能 这 么 做 ， 但 通常 不 需要 在 数据 模型 中 定义 任何 关系 信息 ， 应 用 会 在 用 户 进 行 操作 的 
时 候 维护 数据 完整 性 ， 比 如 在 决定 删除 某 个 用 户 的 记录 的 时 候 。 
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时 库 看 成 一 个 单一 的 、 庞 大 的 、 可 以 
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亚马逊 内 部 使 用 的 键 值 存储 系统 。 
为 Dynamo 和 Google 的 Bigtable 一 样 ， 都 是 Apache ad 很 


得 讨论 ， 
2007 年 10 月 ， 


Available Amen Store" 
博客 “All Things Distributed" (一 
http://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf 。 这 


对 这 种 
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当 需 要 扩展 到 数 十 亿 条 i 


已 孙 的 时 候 就 会 非常 困难 ， 但 这 种 需求 


直 存 储 ， 包 括 Tokyo Cabinet ` Y 


情况 的 建议 是 ， 键 一 值 存储 从 本 质 上 意味 着 应 用 可 
局 访问 的 哈 希 表 ， 


这 本 身 就 难于 维护 ， 编 程 效率 


亚马逊 的 SimpleDB 以 及 微软 的 
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者 们 无 法 使 用 这 


个 系统 ， 但 它 仍然 非常 什 


多 设计 决策 的 来 源 。 


马 逊 的 CTO Werner Vogels 在 ACM 发 表 了 一 篇 名 为 “Dynamo: Amazon's Highly 
直 存储 
链接 为 


o 这 篇 论文 现在 还 可 以 在 他 的 


篇 论文 技术 性 很 强 ， 但 
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巴 的 主要 观点 。 


诞生 于 现实 生产 环境 中 的 需求 ， 包 括 持 续 增 党 


的 性 能 


要 求 、 高 负载 和 节点 故障 下 的 持续 可 用 
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做 了 深入 的 讨论 。 
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J 故障 处 理 被 认为 是 一 下 
竹 部 分 的 一 致 性 


亚马逊 的 购物 车 ， 当 然 ， 
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词 不 当 的 。 


是 一 个 可 配置 的 
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功 的 。 要 


它 允 许 用 户 来 确定 一 个 副本 数 ， 响 应 
改 到 这 点 ， 所 有 副本 之 间 的 通信 是 通过 
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E NEA 
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ri 


用 场景 中 是 完全 可 以 接受 的 
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) 的 数据 副本 。 


Dynamo 的 一 切 


多 精力 放 到 
qm 致 性 


音 述 都 适用 于 Cassandra ° 
Dynamo 的 设计 ， 而 在 数据 模型 方 


用 的 模型 ， 
o 他们 还 需要 一 


本 书 中 


的 字 节 数组 


f&j 8 
他 们 的 主要 目 


标 


己 经 把 这 个 概念 作为 Cassandra 的 本 质 特 


团队 决定 调 低 一 致 性 * 旋 扭 >。 重 复 一 
个 非常 易于 使 用 的 查询 模型 ， 所 
里 。 这 就 无 须 使 用 复杂 的 schema 设 


氏 时 延 和 高 吞吐 性 能 的 优化 上 面 了 。 


f 


ERHI, 


Dynamo 必 须 实现 某 种 


它 使 用 了 一 和 


o Cassandra 


公文 的 主要 内 容 ， 帮 


' 称 为 向 量 时钟 的 机 制 ， 
HIDynamo 在 架构 


尔 理解 其 架构 目 


Ml 


JE, 


版 本 机 制 ， 以 让 副本 知道 ， 哪 
每 个 进程 维护 一 个 数值 引 
7 同 之 处 是 有 提示 切换 。 


另 一 个 共 
虽然 我 非常 推荐 你 


个 节点 


上 的 


上 局、 


看 则 基于 Bigtable ° 


A.6.2 Voldemort H 


， Cassandra 是 在 EK 


简单 地 说 ，Cassandra 在 一 致 性 


己 的 路 ， 所 以 不 要 理所当然 地 认为 
E 和 分 区 耐 受 性 方面 


标 和 特性 。 虽 
继承 了 


Voldemort 开 始 是 一 个 LinkedIn 的 内 部 项 目 ， 用 于 解决 他 们 所 面 对 的 简单 数据 在 可 扩展 性 需求 下 
的 分 区 问题 ， 与 Cassandra 在 Facebook 局 动 的 有 RAKK © Voldemort — 1 2) 48 BJ ^ ce] 8 
的 键 一 值 存 储 系 统 ， 基 于 Amazon 的 Dynamo 和 Memcached。 


LinkedIn 的 Jay Kreps 提 到 的 性 能 数据 大 约 是 一 个 客户 端 、 一 个 服务 器 的 环境 下 ， 每 秒 2 万 次 读 操 
作 、1.7 万 写 操作 。 


。 网 站 : http://project-voldemort.com 

。 面 向 ， 刍 一 值 存储 

。 创建 : 2008 年 ， 由 LinkedIn 的 数据 与 分 析 团 队 为 解决 应 用 的 实时 性 问题 而 创建 。 

。 实现 语言 : Java 

。 分 布 式 : 是 

* schema: Voldemort 的 主要 设计 目标 是 高 性 能 与 高 可 用 性 。 所 以 ， 这 个 数据 库 仅 支 持 最 简单 
的 schema。 下 面 这 些 是 仅 有 的 查询 方式 : value = store.get(key), 


store.put(key, value) flistore.delete(key) ° 因为 Voldemort 人 允许 用 JSON 指 定 
schema， 所 以 它 支持 JSON 支 持 的 数据 类 型 。 


客户 端 和 Cassandra 类 似 ，Voldemort 人 允许 可 播 拔 的 接口 方式 。 按 照 Yoldemort 的 网 站 上 的 
它 支 持 可 插 拔 的 序列 化 机 制 ， 并 集成 了 Thrift、Avro 和 Google Protocol Buffers 的 支 
F 

副本 复制 机 制 ; 数据 自动 地 在 多 人 台 服 务 器 间 进 行 副 本 复制 ， 这 是 可 配置 的 。 


底层 存储 : Voldemort 人 允许 使 用 可 播 拔 的 磁 副 存储 机 制 ， 可 以 使 用 BerkeleyDB 或 是 
MySQL ° 


。 产品 应 用 : LinkedIn 
。 附加 特性 : 可 以 与 Hadoop 一 起 使 用 。 


A.6.3 Redis 


p - 普通 的 ” 键 一 值 存储 ， 因 为 它 还 支持 多 种 不 同 数据 结构 的 值 ， 比 如 二 进 制 安全 字 
TE (不 包含 空格 或 换行 的 字符 串 ) 、 列 表 ， 以 及 二 进 制 安全 字符 串 集 合 、 有 序 集 合 ， 其 中 有 
BARCHE 含 一 个 用 于 排序 的 浮 点 数 分 数 。 


2010 年 3 月 ，VMWare 接 手 ， 成 为 Redis 项 目的 赞助 者 。 


$E 


—L 
AL 


。 网 站 : http:;//code.google.com/p/redis 
。 面 向 : 键 一 值 存储 
。 创建 : 创建 于 2009 年 
。 实现 语言 : ANSIC 
。 分 布 化 : 没有 分 布 化 和 容错 性 。 


schema:， 键 一 值 存储 ， 使 用 server :key-name 来 存储 与 取出 数据 。 


。 客 户 端 : Redis 文 持 多 种 客户 端 ， 通 常 通过 外 部 的 库 ， 文 持 Ruby、Python、Twisted 
Python、 oa ` Tcl ` Perl ` Lua ` Java ` Scala ` Cloure ^ C£ ` C ` Haskell, LE Google31frj 
Go 语言 Fi 


«e CAP: 最 终 一 致 性 


是 否 开源 : 。 托管 在 Google Code 项 目 中 。 这 里 有 一 个 很 整洁 的 页 面 (基于 MongoDB 的 
教程 ) ， BT MR 并 允许 你 直接 在 浏览 器 里 使 用 JavaScript 来 尝试 Redis。 来 
http: //try. redis-db.com 尝试 一 下 吧 。 


AZ JŽ 


在 列 数据 库 中 ， 数 据 围绕 列 而 非 行 来 组 织 。 这 样 ， 可 以 对 某 些 应 用 的 负载 更 加 优化 ， 特 别 是 数 
和 分 析 类 应 用 ， 因 为 它们 在 计算 时 需要 聚集 大 量 的 相似 数据 。 列 数据 库 (或 说 面向 列 的 
特别 适合 那些 对 大 数据 集 进 行 查询 的 在 线 分 析 处 理 (OLAP) 应 用 。 


了 优化 磁盘 空间 和 IO 消耗 的 时 间 ， 在 列 数据 库 里 ， 数 据 存储 的 工作 方式 有 些许 不 同 。 例 如 ， 
列 数据 E AY 与 条 记录 时 ， 只 写 很 多 列 中 的 一 列 ， 并 只 有 这 列 会 占用 实际 空间 。 这 和 
RDBMS 非 常 不 同 ， 在 ， 空 值 也 不 是 零 开销 的 。 你 可 以 把 RDBMS 想 象 成 一 个 工作 表 ， 
DN ， 为 了 维持 表格 数据 结构 的 形状 ， 即 使 没有 东西 也 要 维护 一 
A 就 不 因为 没有 “ 空 ” 值 存在 。 列 数据 可 以 想象 成 是 标 
签 : 入 可 以 是 任意 长 并 且 列 的 名 字 和 宽度 都 不 做 预 设 。 


列 数 据 库 经 常 要 求 数据 的 类 型 是 一 致 的 ， 这 样 可 以 更 好 地 进行 数据 压缩 。 


列 数据 库 最 早 大 约 出 现在 20 世 纪 70 年 代 早期 。Sybase IQ 就 是 最 早 的 列 数据 库 之 一 ， 很 多 年 来 ， 
都 上 US m 业 的 列 数据 库 。 


不 过 ， 近 几 年 的 项 目 〈 主 要 是 开源 项 目 ) 才 是 我 们 讨论 的 NoSQL 的 一 部 分 ， 这 些 数据 库 演 进 自 
基本 的 键 一 值 存储 ， 但 拥有 更 为 丰富 的 数据 模型 。 你 可 以 把 这 些 列 数据 库 看 做 是 多 维 的 键 值 存 
储 或 哈 希 表 ， 它 们 不 仅 文 持 简 单 直 接 的 键 值 对 ， 还 允许 使 用 “ 列 族 ? 这 样 的 数据 模型 来 帮助 组 织 
各 列 ， 提 供 更 丰富 的 模型 。 这 些 列 数据 库 包 括 Google 的 BigTable、HBase、Hypertable 和 


Cassandra ° 


Googlef']Bigtable że Ií CIZE PERIE. 。 它 是 一 个 内 部 自用 的 系统 ， 但 是 Google 发 表 了 几 篇 论 
文 来 介绍 它 的 设计 ， 后 面 所 有 讨 ; PLE 的 实现 都 紧 随 Bigtable 的 设计 。 就 Cassandra 而 言 ， 
它 也 从 Bigtable 继 承 了 一 些 关 键 理念 
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A.7.1 Google Bigtable 


在 Google 内 部 ， Bigtable 用 于 用 户 数据 库 ， 它 的 设计 可 以 扩展 到 PB 级 别 。Google 在 2006 年 发 表 
的 论文 《Bigtable: 结构 化 数据 的 分 步 式 存储 系统 》 (Bigtable: A Distributed Storage System for 
Structured Data) 中 介绍 了 Bigtable。 在 论文 中 说 明了 这 个 项 目的 目标 为 :“ 广 泛 适用 、 可 扩展 、 

高 性 能 与 高 可 用 。”Bigtable 在 Google 内 部 作为 底层 存储 ， 使 用 非常 广泛 ， 支 持 了 超过 60 个 项 
包括 Gmail、YouTube、Google Analytics 、 Google Finance、Orkut、 个 性 化 搜索 和 Google 
Earth。Bigtable 运 行 在 Google 文 件 系 统 (GFS) 之 上 。 


理解 Bigtable 非 常 有 意义 ， 至 少 在 某 种 程度 上 ， 因 为 它 的 很 多 特性 和 设计 决策 都 是 Cassandra 的 蓝 
本 。 虽 然 Cassandra 在 一 致 性 和 分 区 耐 受 性 方面 是 基于 Amazon Dynamo 的 设计 的 ， 但 它 的 数据 模 
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型 和 Bigtable 更 为 接近 。 


E y 


i 其 他 章节 里 有 详尽 的 介绍 ) 


比 简单 的 键 值 存储 更 为 灵活 和 ZU, 


— 1t 我 强烈 建议 你 阅读 Google Bigtable 的 论文 ， 这 是 一 篇 非常 优秀 的 文章 。 不 过 ， 需 要 注意 


的 是 ， 虽 然 Cassandra 从 Bigtable 中 拿 来 了 


一 对 应 的 。 比 如 ，Bigtable 定 义 了 主 从 节点 ， R Cassandra hA jR RZA 存储 机 制 是 基于 
Bigtable 的 ， 也 有 很 多 地 方 使 用 
Cassandra 的 实现 接近 


侈 如 ，Cassandra 从 Bigtable 中 借鉴 (也 有 一 些 修改 ) 了 SSTable、 
memtable ` Bloom filter 和 压 紧 pompa 的 实现 (参考 词汇 表 里 有 这 些 名 词 的 定义 ， 它 们 在 
。 从 这 个 角度 看 ，Cassandra 比 Dynamo 支 持 更 丰富 的 数据 模 


HHE LE FERGE 。 


很 多 关键 理念 ， 两 者 无 论 概 念 还 是 实现 也 不 完全 是 一 


ks 


了 相同 的 名 词 ， 但 也 并 不 总 是 这 样 。 比 如 ，Bigtable 的 读 写 与 


近 但 不 一 样 ，Bigtable 定 义 了 Tablet 结 构 ， 但 在 Cassandra 里 没有 严格 一 致 的 


体现 ， 等 等 。 你 可 以 在 http://labs.google.com/papers/bigtable.html 找到 Bigtable 的 论文 。 


Cassandra 在 很 多 地 方 和 Bigtable 有 


型 。 


差别 ， 但 是 


» 在 Bigtable 里 ， 主 节点 使 用 Chubby 水 久 分 布 式 锁 机 制 来 控制 操作 ”而 在 Cassandra 中 ， 所 有 的 


两 者 重要 的 差别 在 于 Cassandra 使 用 了 无 中 心 的 模 


节点 都 是 平等 的 ， 没 有 中 心 控制 ， 使 用 一 个 gossip 模 型 来 互相 通信 。 


有 一 


rM HET t 它 用 Chubby 做 几 件 事情 : 保证 任何 时 候 至 少 
个 主 节点 的 副本 可 管理 服务 器 的 系统 引导 、 发 现 和 死亡 ， 存 储 schema 信 息 。 


。 网 站 : 无， 但 可 以 在 http://tables.googlelabs.com 查看 一 个 相关 的 项 目 ， 称 为 Google Fusion 


Tables ° 


面向 : 列 


创建 Google 从 2004 年 开始 Bigtable 的 开发 ， 论 文 发 表 于 2006 年 。 


实现 语言 : C++ 
分 布 化 : 是 
底层 存储 : Google 文件 系统 


文件 ， 以 提供 最 好 的 吞吐 量 
服务 器 上 ， 随 时 可 能 会 出 错 ， 


Cassaandra 与 Bigtable 有 很 多 不 同 ， 


点 对 环 做 中 心 控制 。 


(GFS) 。 文 件 分 割 为 64 MB 的 分 块 ， 通 常 只 以 追加 的 方式 写 
。GFS 有 一 个 根本 原则 ， 文 件 系统 必须 运行 在 大 量 廉价 的 普通 


因此 必须 g 够 在 这 种 场景 实现 nf] 
一 个 主 节点 和 很 多 数据 块 服务 器 (chunkserver) 。chunkserver 存 储 数据 块 文件 ， 主 节点 则 
来 存储 所 有 关于 数据 块 的 元 数据 ， 包 括 数据 的 存储 位 置 等 。 显 然 ， 在 存储 方面 ， 

因为 Cassandra 里 ， 所 有 节点 都 是 地 位 相同 的 ， 没 有 主 节 


schema: Bigtable 的 数据 模型 是 一 个 稀疏 、 分 布 化 、 多 维 的 有 序 映 射 。 人 允许 用 户 存储 比 亚 
因为 它 支 持 列表 类 型 。 这 个 映射 使 用 行 键 值 、 列 键 值 和 时 


马 逊 SimpleDB 更 为 丰富 的 数据 ， 


间 惟 进行 索引 ， 值 本 身 是 无 解释 的 字 
客户 端 : C++， 查 询 有 Po ud ou nac wu 


LE 


性 。GFS 有 两 类 服务 器 : 


节 数 组 类 型 。 


API 不 支持 向 数据 库 写 值 ， 但 可 以 进行 数据 过 滤 、 转 换 和 汇总 。MapReduce 既 可 以 从 
Bigtable 输 出 数据 也 可 以 输入 到 Bigtable 中 。 


是 否 开源 ， 否 


附加 特性 : 虽然 你 无 法 直接 使 


用 Bigtab 


Hadoop 是 一 个 MapReduce 的 玫 


使 用 它 。 Bigtable 在 设计 时 就 考虑 了 用 3 


le， 但 可 以 通过 在 Google App Engine 创 建 应 用 来 间接 


F 源 实现 。 


-MapReduce 的 算法 。Bigtable 有 好 几 个 克隆 产品 ， 而 


A.7.2 HBase 


HBase 是 Google Bigtable 的 一 个 克隆 ， 


使 用 它 


们 收购 了 Powerset ° 


。 网 站 : ”http://hbase.apache.org 


。 面 向 ， 列 


。 创建 者 :Powerset 在 2007 各 


实现 语言 : 


Java 


他 


的 系统 


分 布 化 : 是 。 可 以 单独 运行 HBase， 


最 早 是 和 Hadoop 一 起 使 用 
Hadoop 项 目的 一 个 子 项 目 ) 。 与 Google 的 Bigtable 底 
库 能 力 ， 人 允许 
数据 库 不 同 ，HBase 是 强 一 致 性 


EEK MapRedee i 5511] 数据 源 和 输 


。 值 得 


J4 J HBase, 


一 提 的 是 ， 


的 (实际 上 ， 起 初 是 Apache 
吏 用 GFS 类 似 ，HBase 为 Hadoop 提 供 数据 


pz 


出 的 9 


与 其 他 的 提供 最 终 一 致 性 的 列 


微软 也 是 HBase 的 一 个 贡献 者 ， 因 为 他 


其 后 捐 给 了 Apache ° 


或 伪 分 布 化 ， 或 是 使 用 完全 分 布 化 模式 。 伪 分 布 化 模 


式 意 味 着 运行 多 个 运行 在 同一 台 服 务 器 上 的 HBase 实 例 。 


底层 存储 : 


schema: 


族 、 单 元 B 


RDBMS 不 同 ， 


HBase 构 建 在 Hadoop 分 布 式 文件 系统 之 上 ， 类 化 
结构 化 数据 。 要 支持 这 


口 


HBase 文 持 非 结构 化 
(这 个 概念 同样 出 现在 对 Apache Cassandra 的 讨论 中 ) 来 组 织 


和 部 分 


RAE IET pc uM 一 个 单独 


JRuby shell 和 HBase 交 互 。 


是 否 开源 : 
产品 应 用 : 


StumbleUpon ^ N 


i 附加 特性 : 


是 (Apache 许 可 证 ) 


在 RDBMS 之 中 
后 单元 限定 符 可 以 在 运行 时 决定 。 这 让 应 用 可 以 非常 灵活 ， 


客户 端 : 可 以 使 用 Thrift、 


的 记录 ， 


T Bigtable ° 


5i 


JE 


些 数 据 结构 ，HBase T 


数据 。 可 以 使 用 行 键 值 、 列 


在 HBas 


T 


里 称 为 “单元 (cell) ”。 5 


ATETEA 而 HBase 人 允许 只 定义 一 个 列 族 ， 然 


并 文 持 采 用 敏捷 式 开 发 方法 。 
RESTful 网 关 、Protobuf (参见 下 面 的 附加 特性 ) 或 一 个 可 扩展 的 


Adobe 从 2008 年 开始 使 用 HBase。Hbase 的 用 户 还 包括 : Twitter、Maholo、 


寻 为 HBase 是 Hadoop 项 目的 一 
套 的 便利 类 ， 所 
非常 方便 。 


ing ` Hulu ` World Lingo、 印 尼 的 Detikcom 以 及 Yahoo ° 


部 分 ， 它 和 Hadoop 的 结合 非常 密切 。 因 为 有 一 整 


以 如 果 你 希望 使 用 HBase 作 为 存储 系统 ， 


HBase 的 运行 需要 依赖 于 Zookeeper 。 Zookeeper 也 是 Hadoop 项 目的 


快 。 


快 20~100 们 ， 


不 同 消 息 类 型 。 可 以 从 Google Code 中 访问 这 这 个 项 目 
HBase 提 供 了 一 个 基于 Web 的 控制 台 


和 


主 服务 器 。 


2: a 点 间 提 供 分 布 式 同步 机 制 的 中 心服 务 。 
集群 的 维护 更 加 简单 ， 而 且 简化 了 HBase 的 核心 代码 。 


你 还 可 以 使 用 Google 的 Protobuf 
高 效 的 数据 序列 化 方法 。 相 同 的 数 
因 为 protoc 
。Protobuf 在 Google 内 部 使 


中 ， 它 可 以 压缩 到 XML 的 
ol buffer 的 在 写 入 的 时 候 进 行 编码 。 


并 在 上 面 运 行 MapReduce 任 务 ， 这 


部 4 


洒 ， 是 一 个 用 于 维护 配置 
| 


虽然 HBase 使 用 Zookeeper 会 增加 外 部 


(Protocol Buffer) API 代 替 XML 来 访问 HBase。Protobuf 是 一 种 非 


半 到 三 分 之 一 ， 比 XML 解析 要 
使 用 Protobuf 可 以 让 HBase 工 作 非 常 
非常 广泛 ， 他 们 使 用 Protobuf 在 不 同 的 系统 之 间 传 输 接 近 五 万 种 
http://code.google.com/p/protobuf ° 


j 户 界面 ， 


可 以 用 了 


监控 管理 


区 域 服务 器 (region server) 


A.7.3 Hypertable 


Bigtable 的 克隆 ， 和 HBase 非 常 相似 。 项 目的 发 起 公司 Zvents 使 用 着 这 
个 系统 ， 每 天 写 入 的 数据 超过 10 亿 个 单元 。Hypertable 的 底层 分 布 式 文件 系统 是 HDFS 或 Kosmos 
ee 。 Hypertable 使 用 多 版 本 并 发 控制 (MVCC) ， 人 允许 用 户 事 务 在 私有 的 内 存 空间 中 执 
行 ， 直 到 事务 提交 之 后 才 对 其 他 客户 端 可 读 。 


与 Cassandra 和 其 他 Bigtable 的 衍生 项 目 类 似 ，Hypertable 使 用 Bloom filter 和 commit log 来 最 小 化 磁 
盘 访 问 、 提 高 性 能 。 


Hypertable 非 常 适 于 分 析 型 应 用 和 人 处理。 和 其 他 非 关系 型 解决 方案 不 同 ，Hypertable 不 常用 于 网 
站 的 后 端 。 


。 网 站 : http://www.hypertable.org 
。 面 向 : 列 
。 创建 者 : Hypertable 项 目 由 Zvents 于 2007 年 2 月 启动 。 


。 实现 语言 : C 
。 分 布 化 :是 
。 开 源 ， 是 


e schema: Hypertable 的 数据 存储 在 一 个 多 维 表 中 ， 可 以 看 做 是 一 个 统一 有 序 的 键 一 值 对 列 
表 。 数 据 的 键 本 质 上 是 四 维 键 值 〈 行 、 列 族 、 列 限定 符 和 时 间 戳 ) 的 连接 。 


。 客户 端 ， 主要 通过 C++ Thrift API 交 互 (Cassandra 也 是 用 Thrift， 并 正在 转向 Avro) ， 也 文 
$Hava ^ Python ` Ruby ` PHP ` Perl ` Erlang ^ Haskell ` C£ ` PerlfllOcamli& A ° 


。 附加 特性 : Hypertable 有 自己 的 查询 语言 ， 称 为 Hypertable 查 询 语言 (HQL) 。HQL 基 于 
SQL 的 模型 ， 可 以 使 用 你 所 熟悉 的 方法 来 进行 查询 ， 比 如 select * from 
QueryLogByTimestamp WHERE ROW -^'2010-03-27 17:05';。 这 个 查询 看 起 对 
和 SQL 非常 类 似 ， 但 格式 略 有 不 同 。 比 如 “^= ”操作 符 的 意思 是 “以 .…… L” o 


与 Voldemort 和 Cassandra (至 少 是 换 用 Avro 之 前 ) 类 似 ，Hypertable 的 客户 端 序 列 化 也 使 用 Thrift 
API ° 


A8 多 持久 化 存储 系统 


本 附录 里 ， 我 们 已 经 接触 到 了 很 多 风格 的 持久 化 存储 ， 有 一 个 突出 的 情况 是 : 每 个 都 适用 于 解 
决 一 类 特定 的 问题 或 特别 擅长 某 一 方面 ， 个 擅长 其 他 方 ELA BECLAEDTVA T AER LER 
程 > 这 个 概念 ， 这 很 大 程度 上 归功 于 Neal Ford ° 多 语 p 不 同 的 编程 语言 擅长 不 同 
的 事情 ， 你 可 以 将 多 个 编程 语言 用 在 同一 个 解决 方案 中 ， 来 最 大 化 收益 。 
http://polyglotprogramming.com 的 Dean Wampler T Emacsitüls 压倒 性 成 功 作为 例子 ， 
编程 的 好 处 : Emacs 中 ， 使 用 C 开 发 内 核 ， 使 它 更 快速 ， 也 使 用 Lisp 的 一 个 脚本 语言 变种 Emacs 
Lisp (ELisp ， 计 它 更 易于 扩展 。 多 语言 编程 作为 一 个 概念 ， 在 过 去 几 年 中 已 经 有 很 多 先行 者 
开始 实践 了 。 我 们 经 常 听 说 有 些 大 的 网 络 应 用 的 不 同 部 分 使 用 Scala、Ruby 和 PHP 写 成 。 比 如， 
根据 最 近 的 消息 ， cBay 的 架构 主要 是 使 用 Java, 但 搜索 引擎 是 使 用 C++ 的 。 


i 


7R 


我 认为 ， 在 持久 化 存储 方面 我 们 可 能 面临 类 似 的 趋势 。NoSQL 的 崛起 开始 对 传统 发 起 挑战 一 一 


m 


们 最 适 于 做 的 工作 。 
A.9 小 结 
在 前 面 的 章节 中 ， 我 们 快速 


库 将 会 和 非 关 系 型 数据 库 共生 ， 


浏览 了 多 种 非 关 系 型 数据 库 ， 硕 望 给 出 恰当 的 背景 
HEF] 


在 NoSQL 发展 中 的 地 位 。 
了 解 更 广泛 的 理论 基础 。 


求 。 。 浏览 这 些 产 品 的 另 一 个 


家 都 对 NoSQL 颇 有 微 词 ， 但 已 经 有 很 多 大 公司 在 面 对 
花瓶 ”。 他 们 的 基础 来 自 于 业界 旨 
有 些 理念 已 经 存在 了 数 十 年 了 。 并 且 ， 虽 然 这 些 系统 有 时 还 有 一 些 (非常 公 


E, ATAR EAAS 


a RN ERE 


为 了 了 解 关 系 型 数据 库 的 敬 代 产品 ， 我 们 还 了 解 了 很 多 近年 来 涌现 的 所 谓 NoSQL 系 统 。 


曾几何时 ， 我 们 认为 RDBMS 可 以 面 对 所 有 任务 ， 因为 我 们 只 有 它 。 也 有 些 NoSQL 提 倡 者 建议 ， 
一 个 或 多 个 NoSQL 来 取代 RDBMS 。 但 我 到 更 乐意 见 到 多 持久 化 存储 系统 的 解决 方案 ， 或 者 
说 ， 在 一 个 应 用 里 ， 使 用 不 同 的 数据 存储 系统 来 完成 不 同 的 任务 。 在 这 个 愿景 
它们 会 共同 出 现在 模块 化 、 面 向 服务 的 应 用 中 ， 每 个 都 执行 它 


关系 型 数据 


来 了 解 Cassandra 
解 近 年 来 各 种 产业 是 如 何 考虑 数据 的 ， 比 较 这 些 系统 ， 以 


据 库 ， 具 有 不 同 的 形式 、 以 不 同 的 方式 来 应 对 着 正在 增长 的 < 互联 网 规模 的 ”海量 数据 处 理 的 需 


的 是 解释 NoSQL 数 据 库存 在 的 原因 ， 虽然 很 多 反对 才 和 业界 的 专 


a 
MEEF 


词汇 表 


难以 置信 ， 我 们 真是 一 大 群 日 痴 。 我 们 在 字典 里 找 “ 洗 钱 ”。 


IH 


的 关于 数据 "T3 展 性 的 理 


所 以 ， 本 书 之 中 ， 我 的 目的 不 是 说 服 你 抛弃 所 有 的 关系 型 数据 库 ， 并 立刻 用 新 方式 来 取代 它 
们 。 我 只 是 想 帮 助 你 理解 这 些 关 系 型 数据 库 替 代 产 品 的 优 缺 点 ， 并 深入 了 解 Cassandra， 这 样 ， 
当 你 面临 下 一 个 数据 问题 时 ， 可 以 直接 回来 ， 并 选择 最 合适 的 工具 ， 而 非 默认 的 工具 来 应 对 。 


开 的 ) 问题 ， 


Peter, 电影 《上 班 一 条 m) 


词汇 表 里 给 出 了 一 些 使 用 Cassandra 时 非常 有 必要 了 解 的 概念 定义 。 在 
http://wiki.apache.org/cassandra 确实 有 不 少 有 用 的 材料 ， 不 过 第 一 次 看 它们 也 确实 
个 新 名 词 都 需要 更 多 的 新 名 词 来 解释 。 很 多 概念 对 于 初级 甚至 是 中 级 Web 开 发 


很 党 ， 因 为 每 
者 和 数据 库 管理 


员 都 十 分 生 涩 ， 这 里 为 了 便于 参考 一 并 给 出 。 词 汇 表 里 很 多 信息 重复 或 扩展 了 本 


的 内 容 。 


1. Ži (Anti-Entropy) ! 


译注 1 : 因为 词汇 表 是 字母 排序 的 ， 为 便 了 


逆 业 或 称 为 副本 同步 ， 是 Cassandra 为 保证 不 同 节点 上 的 数据 副本 都 可 以 更 


的 机 制 。 


5 找 ， 这 里 所 有 词汇 都 保留 英文 原 词 了 。 


中 相关 章节 


IESUS E: 


AEE PXÉASHJ LTEM EEE 〈 参 见 压 紧 ) 过 程 中 ， 服 务 器 发 起 
来 和 相 邻 节点 交换 Merkle 树 。 Merkle 树 是 一 个 列 族 数据 的 哈 希 


TreeRequest/TreeResponse 会 话 ， 


折 版 本 而 采用 


表示 。 如 有 果蔬 点 间 的 树 不 匹配 ， 它们 就 会 重新 协商 (EXER) 数据 ， 以 确定 它们 应 该 把 最 终 数 


据 确定 为 什么 。 树 比较 验证 是 org.apache .cassandra.service.AntiEntropyService 


类 负责 的 。AntiEntropyService 类 实现 了 单 例 模式 ， 并 定义 了 Differenc 


TI) " 


Xr 3f M Dynamo 


对 于 如 何 修复 数据 ， 


2. 异步 写 


不 同 ， 
中 ， 这 个 树 作为 一 个 快照 而 4 
节省 很 多 人 磁盘 IO 。 


在 


创 


个 类 用 于 比较 两 棵 树 ， 如 果 发 现任 何 差异 ， 都 会 对 有 差异 的 区 间 发 起 修复 过 程 。 
FP 使 用 了 逆 炉 机 制 ，Cassandra 采 用 了 Dynamo 的 模型 (参考 Dynamo 论 文 的 4.7 


er 静态 类 。 这 


在 Dynamo 之 中 ， 它 们 使 用 了 Merkle 树 来 支持 逆 炉 机 制 (参见 Merkle 树 ) 。Cassandra 也 是 如 
此 ， 但 两 者 实现 略 有 


Cassandra 之 中 ， 每 个 列 族 有 它 自 己 的 Merkle 树 ， 在 主 压 紧 过 程 
建 出 来 ， 生 存 期 到 发 送 给 环 上 的 邻居 节点 为 止 。 这 样 的 实现 可 以 


可 以 参见 读 时 修复 。 


异步 写 (asynchronous write) 在 文档 和 邮件 列表 里 有 时 简写 为 Async Write。Cassandra 大 量 EH 
T ExecutorService 和 Future<T> 这 类 java.util,concu- rrent 库 的 组 件 来 把 数据 写 


向 缓冲 区 。 


3. Avro 


Avro (可 能 ) 正在 


一 个 子 项 目 ? 


取代 Thrift 成 为 与 Cassandra 进 行 交 互 的 RPC 客 户 端 。Avro 是 Ap 
由 Hadoop 和 Lucene 的 创立 者 Doug Cutting 创 建 。Avro 的 功能 类 似 于 Thrift， 但 它 是 


au. 


动态 数据 序列 化 


活动 了 。 


Ez 


译注 2 : Avro 已 经 从 Hadoop“ 毕 


相对 于 Thrift 来 说 ， 具 有 不 需要 静态 4 


业 ”， 成 为 顶级 的 Apache 项 目 了 。 


成 的 优点 。 另 一 个 迁移 向 Avro 的 原因 
是 ，Thrift 最 早 是 是 一 个 Facebook 创 立 的 项 目 ， 之 后 捐 给 了 Apache， 再 之 后 束 没 有 什么 积极 的 开发 


ache Hadoop 的 


这 个 迁移 意味 着 Cassandra 服 务 器 将 从 org .apache.cassandra. thrift .Cass- 
andraServer 迁移 到 org.apache.cassandra.avro.CassandraServer 。 在 本 书写 作 


的 时 候 ， 这 个 迁移 尚 在 进 


并行 中 ， 还 没有 完成 。 


你 可 以 从 Avro 的 官方 主页 了 解 更 多 的 信息 : http://avro.apache.org ° 


4. Bigtable 


BigtablezéGoogle T 20064 


FE 开发 的 面向 列 的 高 性 能 分 布 式 数据 库 系统 ， 构 建 在 Google 文 件 系统 


(GFS) 之 上 。Cassandra 直 接 继 承 自 Bigtable 和 亚马逊 的 Dynamo。Cassandra 从 Bigtable 继 承 了 很 


ARP, IM 


数组 


和 使 


SSTable 存 储 数据 。 


Yahoo! 的 HBase 是 Bigtable 的 一 个 克隆 。 


可 以 从 这 里 http://labs.google.com/papers/bigtable.html 读 到 Bigtable 的 完整 论文 。 


5. Bloom filter 


简单 地 说 ，Bloom filter 是 一 个 非常 快 的 用 于 判断 一 个 元 素 是 否 属于 一 个 集合 的 
因为 这 个 算法 可 能 会 返回 假 阳 


filter 的 工作 方式 是 将 


个 数据 


摘要 字符 串 中 。 按 照 定义 ， 


性 值 ， 所 以 是 不 确定 性 的 ， 当 然 ， 它 不 会 返回 假 阴 ' 


确定 性 算法 。 


这 个 摘要 会 使 用 一 块 相对 于 原始 数据 量 很 小 的 内 存 


集 的 简 映 射 到 一 个 位 数组 ”或 是 把 一 个 更 大 的 数据 集 映 射 到 一 个 


KT pk, o 


Cassandra 在 键 值 查询 时 使 用 Bloom filter, 


与 之 相关 联 的 Bloom 
filter 不 会 返回 
在 。 而 如 果 过 滤器 


然 可 能 出 现 假 阳性 结论 算是 


filter, 


性 结 “二 


假 阴性 


以 此 减少 代价 高 昂 的 磁 副 访问 


所 以 ， 


。 每 个 SSTable 都 有 
当 进 行 查询 时 , 会 在 访问 硬盘 之 前 查询 Bloom filter。 因 为 Bloom 


合 里 ; 


集合 里 没有 
月 .不 


"要 过 滤器 报告 F1 说 


说 元 素 存在 ， 那 要 再 ; 


进行 磁盘 访问 ， 确 定 是 


口 


4 
区 [可 ; 


Am 


E 


1 
内 
量 增 加 而 增 


在 Apache Hadoop、Google 的 Bigtable 和 Squidf 


ff, 
加 。 


这 检 


不 像 简单 的 数组 、 哈 希 表 或 链表 一 样 
会 减少 很 多 磁 强 访问 。 这 样 


个 缺点 ， 但 Bloom filter 的 优点 就 是 它 个 


] 确 实 飞 快 ， 


无 需 存储 所 有 
就 是 ，1 


的 


个 结 


个 


某 元 素 存在 ， 那 就 一 定 不 存 
真 的 存在 。 


大 


为 它 的 空 


的 元 素 。Bloom filter 主 
段 阳 性 值 的 数量 会 随 着 元 素数 


Bloom filter 是 以 其 发 明 人 Burton Bloom 命 名 的 。 


6. Cassandra 


理 服务 器 缓存 中 ， 都 有 Bloom filter 的 应 用 。 


在 希腊 神话 之 中 ，Cassandra ( 卡 珊 德 拉 ) 是 特洛伊 国王 普 利 阿 摩 斯 和 王后 赫 卡 柏 的 女儿 。 为 
她 非常 漂亮 ， 阿 波 罗 神 给 了 她 预知 未 来 的 能 力 。 但 当 她 拒绝 了 阿波 有 罗 的 挑逗 之 后 ， 他 诅咒 

她 ， 从 此 她 仍然 可 以 准确 预言 任何 将 要 发 生 的 事情 ， 但 没有 人 会 相信 她 的 话 。 ii 了 
她 的 城市 特洛伊 的 覆灭 ， 但 却 无 力 阻止 。Cassandra 分 布 式 数据 库 用 她 命名 。 

Cassandra 仔 储 系统 是 一 个 Apache 项 ， 主 页 位 于 http:Wcassandra.apache.org 。 该 项 目 2009 年 1 月 
成 为 了 一 个 及 化 器 项 目 。 它 的 关键 特征 包括 无 中 心 、 弹 性 、 容 错 、 可 调 一 致 、 高 度 可 用 ， 是 为 
在 跨越 数据 中 心 的 大 量 普通 服务 器 上 存储 超大 规模 数据 而 设计 的 。 它 被 用 于 Digg、Facebook、 
Twitter、Cloudkick、Cisco、IBM、Reddit、Rackspace、SimpleGeo、Ooyala、OpenX 等 公司 中 。 
Cassandra 最 初 由 Facebook 开 发 ， 用 于 解决 他 们 的 收 件 箱 搜索 问题 。 开 发 团队 由 Jeft 
Hammerbacher 领 导 ， 核 心 程 师 包括 Avinash Lakshman ` Karthik Ranganathan 和 搜索 团队 的 
Pe ab rca MEE 项 的 代码 开放 到 Google Code 上 * 2009 年 3 月 成 为 了 Apache 的 孵化 
器 项 目 ， 次 年 2 月 17 日 ， 通 过 投票 成 为 了 Apache 顶 级 项 目 

Facebook 的 Lakshman 和 Malik 写 了 一 篇 名 为 “一 种 无 中 心 结构 化 存储 系统 ”的 论文 ， 介 绍 了 
Cassandra 的 核心 内 容 。 前 这 篇 论文 可 以 在 


http://www.cs.cornell.edu/projects/ladis2009/papers/lakshman-ladis2009.pdf 找到 。 


Avinash Lakshman 还 在 2008 年 写 过 一 


He 


篇 博客 ， 


述 他 们 在 Facebook 如 何 使 用 


Cassandra: 


http://www.facebook.com/note.php?note id-24413138919&id-9445547199&index-9 ° 


pA 


1h 


容易 明 


先知 来 命名 


Ran Tavory 开 发 的 Java 客 户 端 Hector 是 用 Cassandra 的 兄弟 


7. Chiton 
在 古 希 腊 ， 


但 仍 


Chitonzé — f 


开发 的 


T 


源 项 


服装 
这 个 项 


白 Cassandra 数 据 库 为 什么 如 此 命名 : 
数据 库 就 是 数据 库 的 未 来 。 尽 管 最 终 一 致 怕 
Facebook 以 及 Twitter， 


ey 


http://github.com/driftx/chiton ° 


与 此 相关 的 


个 


源 项 


iH B 


El 


AE 


有 很 多 人 对 这 个 
也 是 对 Oracle 〈 和 希腊 神话 中 的 “ 神 论 ”) 数据 库 : 开 


EA 


它 的 支持 者 确信 ， 
FE 被 广泛 地 使 用 在 很 多 ou 
模型 心 存 敌 意 。 据 推 
MM 


的 。 


命名 


个 基 


2 d 


用 Twisted Python i ^J Cassandra/I zs P3 


前 Bi H ia lfgithub. com/driftx/Telephus ° 


Cassandra 和 其 他 相关 的 NoSQL 


包括 亚马逊 、 Google ~ 


将 数据 库 


， 通 党 是 无 袖 的 ， 男 女 丝 可 。Brandon Williams 用 Chitonf 
是 F Python GTK 的 Apache Cassandra 浏 览 


WAPI H 


JA jE? 


bar o H 


Telephus。 这 个 


话 中 的 


命名 了 他 
前 托管 于 


8. 集群 (cluster) 
集群 就 是 两 个 或 多 个 Cassandra 实 例 同 台 献艺 。 这 些 实例 使 用 Gossip 协 议 相 互通 信 。 


新 配置 一 个 实例 来 引入 到 集群 中 时 ， 需 要 先 做 一 些 准备 工作 。 首 先 准 备 一 个 种 子 节点 ， 之 后 指 
定 两 个 要 监听 的 端口 :Gossip 和 Thrift 接口 。 集 群 配 置 好 了 之 后 ， 可 以 使 用 node tool 来 验证 设 
置 是 否 正确 。 


9. 列 (column) 
列 是 Cassandra 数 据 模型 中 的 最 基本 的 数据 表示 单位 。 一 列 是 一 个 三 元 组 ， 包 括 名 (有 了 时 也 称 
为 “ 键 值 > 、 值 和 时 间 惟 。 一 个 列 的 值 和 时 间 惟 都 是 由 客户 端 提供 的 。 列 名 和 值 的 数据 类 型 都 


时 间 惟 的 数据 类 型 是 基本 类 型 1ong。 为 了 避免 多 线程 问题 ， 列 是 不 可 变 


列 组 织 在 列 族 之 中 。 

Cassandra 中 的 列 由 接口 org.apache.cassandra.db.IColumn 定义 其 中 定义 的 操作 包括 
读 取 byte[] 类 型 的 值 或 读 取 Collection<IColumn> 类 型 的 子 列 ， 还 有 查询 最 近 修 改 的 时 
间 。 


列 会 按照 它们 的 类 型 来 排序 ， 包 括 AsciiType 、BytesType ^ LexicalUUID-Type ` 
LongType `TimeUUIDType 、UTF8Type 。 参 见 列 族 。 


一 < 


o 


s m 


10. 列 族 (column family) 
列 族 的 地 位 大 致 相当 于 关系 型 模型 中 的 表 。 它 是 容纳 一 组 有 序 的 列 的 容器 。 
因为 每 个 列 族 都 存储 在 单独 的 文件 中 ， 所 以 ， 最 好 把 一 次 查询 需要 的 数据 放 在 同一 个 列 族 里 。 


你 要 在 Cassandra 的 配置 文件 中 定义 列 族 。 还 可 以 提供 全 局 (每 个 keyspace 的 ) 值 用 于 行 缓存 尺 
十 、 键 缓存 尺寸 以 及 读 时 修复 率 。 列 族 可 以 是 下 列 两 种 类 型 之 一 : standard super ° 


参见 列 、Keyspace 、 超 级 列 。 
11. 列 名 (column name) 
行 中 存储 的 名 / 值 对 的 “名 ” 那 部 分 。 
12. 列 值 (column value) 
行 中 存储 的 名 / 值 对 的 “ 值 * 那 部 分 。 列 值 的 尺寸 会 受到 主机 内 存 的 限制 。 


A 


一 由 
dt 
GE 


13. commit log 


commit log RUNS aee dis 。 当 进行 一 个 写 操 作 时 ， 首 先 束 会 进入 到 commit log 之 
P 这 样 ， ,由 使 发 生 故障 也 个 会 于 天 数据 ， 之 后 ， 值 送 入 memtable ， 这 术 可 以 通 过 内 存 查 询 ， 
以 便 获得 较 高 性 能 。 一 旦 memtable 满 了 ， 数 据 就 会 刷 写 入 SSTable 文件 之 


这 项 工作 由 org ,apache.cassandra.db,.commit1og,CommitLog 类 负责 ， 每 次 写 或 删除 
操作 ， 变 更 会 以 RowMutation 对 象 的 形式 序列 化 并 追加 写 到 commit log 之 中 。 这 些 对 象 组 织 关 
toni 109 E: 在 默认 情况 下 ，commit log] A 5]3520128MBB] B] (EL TRI A, 3X] RETE. 
一 个 新 的 commit logX ff, 接收 写 操作 。 这 项 设置 是 可 调 的 。 


14. 压 紧 (compaction) 


的 表 重 建 。 


并 加 索引 


org.apache.cassandra.db.CompactionManager 类 负责 
现 了 一 个 MBean 接 口 ， 


Cassandra 中 有 几 种 不 同类 型 的 压 


庄 紧 是 通过 合并 大 的 累积 数据 文件 的 方式 来 释放 空 
* 在 压 紧 过 程 
NM TC APA 


在 压 紧 期 间 进行 的 释放 空间 的 操作 包括 合并 键 什 


x 间 的 过 程 。 


所 以 它 是 支持 内 省 的 。 


紧 操 作 。 


主 压 紧 有 两 和 


触发 方 b 


MZ 


一 个 TreeReques 消 息 


的 是 验证 列 族 的 数据 。 
区 列 族 中 


1. ZRH 


W 


>A 


一 个 单线 程 内 执行 压 紧 程 序 ， 


; TARMA BEAR 


比较 过 程 由 StageManager 类 进行， 
StageManager fJ 


Br P ex [oU ex ie EH 
个 节 FACE TreeRequesti 


` 和 并 列 、 


L 


这 个 过 程 大 致 相 
的 数据 会 被 排序 ， 并 创建 新 的 索引 文件 ， 


MZ -二 


IRAH -H 


而 


动 进 行 。 市 点 侦 测 会 向 


Ju US EH o 


这 个 过 程 由 
e Compaction-Manager 实 


目标 节点 的 相 邻 六 点 发 送 


只 读 压 紧 包含 如 下 几 步 。 


的 键 值 分 布 。 


u 


息 之 后 ， 


之 后 ， 如 


H FH 


这 了 
j— MARNE o» "E f FH 


org.apache.cassandra.concurrent.JMXEnabledThreadPoolExecutor 类 ， 在 


列 族 需 要 验证 ， 


.Merkle 树 们 放 在 一 起 ， 作 为 一 个 Differencers 


15. 压缩 (compression) 


ik 


回 值 压 缩 是 一 个 未 来 版 ， 


的 特性 ， 


16. 一 致 性 (consistency) 


致 性 ; 


SA E 


数据 库 
(isolated) IS A f 


LE 


[ 


N = 存放 数据 副本 的 节点 数 


原子 性 
t (durable) | 之 一 。 在 Cassandra 


使 这 个 操作 可 以 作为 一 个 MBean， 


但 0.6 还 不 支持 。 


个 事务 不 会 让 数据 库 进入 不 合法 状态 ， 不 会 违反 完整 性 
里 的 事务 的 关键 方面 ， 是 ACID 属性 


(atomic ) 


! 的 一 致 特 


会 立刻 进行 


就 会 创建 Merkle 树 ， 


` 一 致 性 


次 只 读 压 紧 ， 其 目 


并 广播 到 周边 节 


(需要 验证 或 比较 的 树 ) 的 列表 发 送 。 
个 类 负责 管理 执行 任务 时 的 并 


发 问题 。 


在 压 紧 时 ， 


支持 内 


省 机 制 。 


FE 约束 。 一 致 性 
(consistent) 


程度 可 以 如 下 衡量 : 


是 关系 型 
` 隔离 性 


W = 在 写 操 作成 功 返 回 之 前 必须 确认 写 入 成 功 的 副本 数 

= 在 读 操作 访问 数据 对 象 时 ， 需 要 获得 的 最 少 副本 数 
W+R>N= 强 一 致 性 
W +R <= N = 最终 一 致 性 
17. 一 致 性 级 别 (consistency level) 
Cassandra 的 配置 允许 你 决定 在 读 写 操作 过 程 中 ， 集 群 中 多 少 个 昌 
作 是 成 功 的 。 一 致 性 级 别 是 基于 配置 文件 中 指定 的 副本 因子 的 ， 


| 本 给 出 确认 或 响应 可 以 判定 操 
而 不 是 系统 中 的 节点 总 数 。 


HZ n8) $5 
说 ， 它 们 的 含义 有 


读 写 


对 于 写 操作 ， 


。 ZERO: 写 操作 将 会 在 一 个 后 台 线 和 


级 别 可 以 用 来 进 
这 


mE! 


性 能 调 优 。 最 高 性 能 的 级 别 ， 


所 不 


ZB o 


和 第 7 章 中 进行 了 详细 介 


Ig] o 


H p 


快 的 方式 ， 但 对 于 操作 成 功 的 保障 也 最 少 。 


性 


异步 完成 ， 无 法 确保 写 操作 一 定 成 功 。 


级 别 也 最 低 。 对 了 


Iu 


这 是 写 数据 最 


。 ANY: 这 个 级 别 是 在 Cassandra 0.6 中 引入 的 ， 意 味 着 你 可 以 确信 数据 至 少 已 经 写 到 一 个 节 
点 上 了 ， 即 使 是 一 个 提示 (参考 提示 移交 ) 也 被 看 做 是 一 个 成 功 的 写 入 。 这 也 是 一 种 相对 
弱 的 一 致 性 级 别 。 

。 ONE: 保证 在 返回 时 ， 数 据 至 少 已 经 写 入 到 一 个 节点 的 commit log 和 memtable 之 中 了 。 如 果 
有 一 个 节点 响应 ， 这 个 操作 就 被 认为 是 成 功 的 。 

e QUORUM: 一 定数 量 的 市 nul a 致 。 数 量 定 为 副本 因子 /2+1。 所 以 ， 如 
果 副 本 因子 是 10， 那 么 有 6 个 副本 确认 操作 成 功 就 可 以 达到 法 定数 量 。 

e DCQUORUM: 3X2 (quorum) 的 一 个 版 本 ， 由 同一 个 数据 中 心里 的 副本 进行 投票 ， 在 选 
举 的 高 一 致 性 和 在 一 个 数据 心 的 副本 间 进 行 操作 的 低 延 时 之 间 进 行 平衡 。 

* ALL: 保证 在 返回 时 副本 因子 指定 数量 的 节点 都 接收 到 数据 了 。 如 果 某 个 副本 对 写 操作 无 
响应 ， 则 写 操 作 会 失败 。 这 个 级 别 有 最 高 的 一 致 性 和 最 差 的 性 能 。 

对 于 读 操作 ， 

。 ONE: 当 第 一 个 节点 响应 时 ， 立 刻 返 回 该 响应 的 值 。 在 后 台 进 行 读 时 修复 。 

e QUORUM: 查询 所 有 节点 。 当 一 部 分 副本 (副本 因子 /2+1) 返回 的 时 候 ， 把 时 间 惟 最 新 的 
值 返 回 客户 端 。 

。 ME 只 保证 同一 个 数据 中 心 的 节点 被 查询 到 。 仅 当 使 用 机 架 感 知 副本 放置 策略 
时 可 用 

。 ALL: 查询 所 有 节点 ， 并 把 时 间 惟 最 新 的 记录 返回 给 客户 端 。 这 个 级 别 会 等 待 所 有 节点 响 
应 。 如 果 有 任何 节点 没有 响应 ， 读 操作 都 会 失败 。 

注意 ， 读 操作 没有 ZERO 这 个 一 致 性 级 别 ， 因 为 在 读数 据 时 不 要 求 任何 节点 响应 是 没有 意义 的 。 


18. 数据 中 心 分 片 策略 (data center shard strategy) 
参考 副本 策略 。 
19. 无 中 心 (decentralized) 


以 随时 进入 退 


在 关系 型 数据 库 中 ， 有 


Cassandra 是 无 中 心 的， 因为 它 没有 定义 主 服务 器 ， 而 是 使 用 对 等 方式 ， 从 而 避免 了 瓶 多 页 和 单 点 
失效 。 无 中 心 对 于 Cassandra 非 常 重要 ， 因 为 这 样 就 可 以 更 容易 地 提高 或 降低 集群 规模 ， 节 点 可 
出 集群 ， 而 不 影响 集群 运行 。 
20. 反 范 式 化 (denormalization) 
时 候 会 采用 反 范 式 化 或 创建 元 余数 据 ， 以 改善 读 密集 型 应 用 的 性 能 ， 如 
E (OLAP) 应 用 。 而 在 Cassandra 之 中 ， 反 范式 化 数据 更 是 一 种 典型 情况 ， 因 为 这 


在 线 分 析 处 到 


型 数据 库 的 数据 


样 可 以 改善 性 能 ， 


并 使 数据 结构 服务 于 查询 的 需要 ， 从 而 和 标准 关系 型 数据 库 划 清 界限 ， 关 系 
结构 通常 是 根据 独立 的 对 象 模型 设计 的 。 


21. 持久 性 (durability) 


数据 库 的 持久 性 


Cassandra 通 过 在 commit log 后 面 进行 追加 写 来 达到 持久 性 。 这 样 就 允许 服务 器 避免 数据 文件 中 


定位 的 次 数 。 只 


当 使 用 一 个 单 服 务 
果 服 务 器 在 写 操 
务 器 万 点 不 建议 


站 


意味 着 写 操 作 会 永久 生效 ， 即 使 服务 器 般 误 或 突然 断 电 也 是 如 此 。 


jcommit log 需 要 同步 写 入 ， 对 于 周期 性 或 批 处 理 的 commit log 都 是 如 此 。 


节点 时 ，Cassandra 并 不 立刻 让 存 储 服务 的 核心 状态 和 文件 同步 。 这 意味 着 如 
作 之 后 马上 关机 ， 当 服务 器 重启 后 ， 写 的 结果 可 能 就 不 会 出 现 了 。 注 意 ， 单 服 
使 用 在 生产 环境 中 。 


m 


参考 Commit Log ° 


22. Dynamo 


2006 年 由 亚马逊 天 


FE, DynamofllGoogle 的 Bigtable 都 是 Cassandra 的 主要 设计 基础 。Cassandra 从 


Dynamo 继 承 了 键 一 值 存储 、 对 称 的 对 等 架构 、 基 于 gossip 的 节点 发 现 、 最 终 一 任性 以 及 每 次 操 


作 可 调 的 一 致 性 。 


你 可 以 在 http:Wwww.allthingsdistributed.com/2007/10/amazons_dynamo.html 阅读 这 篇 完整 论 
X: "Dynamo: 亚 马 进 的 高 可 用 键 值 存储 ”。 


23. 弹性 (elastic) 


读 写 吞吐 量 可 以 
24. 最 终 一 致 性 
一 致 性 是 一 种 描 


随 着 集群 中 机 器 数量 的 增加 而 线性 增长 。 


(eventual consistency) 


壕 数据 在 一 个 更 新 操作 之 后 的 内 部 完整 性 的 属性 。 在 强 一 致 性 数据 库 中 ， 这 总 


味 着 一 旦 客户 端 
库 一 般 不 会 立刻 


前 完成 一 个 与 操作 ， 所 有 读者 都 可 以 立刻 看 到 新 值 。 在 最 终 一 致 性 系统 中 ， 数 据 
达到 一 致 状态 ， 但 最 终 会 达到 (这 里 的 “最 终 ” 实 际 也 就 是 毫秒 级 的 时 间 ， 它 会 


利 这 点 时 间 将 


新 值 送 到 所 有 副本 ， 具 体 时间 与 数据 量 、 节 点 数 和 节点 的 地 理 分 布 特性 有 


X) 。DNS 就 是 


最 终 一 致 性 在 过 
数据 库 也 能 够 达 
比如 编程 模型 会 变 


为 “可 调 ” 一 致 性 ， 


性 级 别 ， 甚 至 可 以 要 求 Cassandra 在 所 有 副本 都 可 读 之 前 阻塞 住 操作 (这 也 就 是 完全 一 致 性 ) 


其 他 最 终 一 致 怕 
CouchDB、 微 软 


是 一 个 流行 的 最 终 一 致 性 架构 的 例子 。 最 终 一 致 性 有 时 也 称 为 " 弱 一 致 性 "。 


去 几 年 越 来 越 流行 ， 因 为 它 可 以 支持 极 高 的 可 扩展 性 。 虽 然 传 统 的 完整 一 致 性 
FIRER RE, 但 管理 开销 会 很 难 负担 。 当 然 ， 最 终 一 致 性 也 有 一 些 缺 点 ， 


变 得 复杂 ~ 


虽然 Cassandra 的 最 终 一 致 性 设计 是 基于 亚马逊 的 Dynamo 的 设计 的 ， 但 Cassandra 可 能 更 应 该 称 


而 不 是 纯粹 的 最 终 一 致 性 。 这 是 因为 Cassandra 人 允许 你 在 一 个 范围 内 配置 一 致 


数据 存储 系统 还 包括 Riak、Voldemort、MongoDB、Yahoo! 的 HBase、 
的 Dynomite 和 亚马逊 的 SimpleDB 和 Dynamo。 


25. 故障 检测 (failure detection) 


故障 检测 是 在 分 


布 式 容错 系统 中 ， 判 断 哪个 节点 发 生 了 故障 的 过 程 。Cassandra 的 故障 检测 基于 


个 增 量 故障 检 
的 。 增 量 故 障 检 


测算 法 。 这 种 故障 检测 pm 2 oc ed 出 
测 基于 两 个 基本 思路 : 第 一 个 思路 是 ， 故 障 检测 应 该 是 灵活 的 ， 这 通过 将 算法 


与 进行 监测 的 应 用 


续 变 化 的 “嫌疑 "级 别 ， 


于 观测 (心跳 的 采样 
个 简单 的 死活 断言 


的 故障 检测 在 org .apache .cassandra.gms.FailureDetector 类 中 实现 。 


能 性 ， 而 不 是 一 


Cassandra 中 


J 


) 


来 得 出 一 个 这 


-个 思路 是 ， 


Hyt Ee h 
EPA 


根据 对 节点 发 生 
络 环境 的 波动 


故障 的 
性 考虑 


2s 


外 信 程度 ， 输 出 一 个 连 
ENT o 嫌疑 级 别 会 基 
^ 具有 前 摄 性 的 指示 来 判断 或 强 或 弱 的 故障 的 可 


可 以 在 http://ddg.jaist.ac.jp/pub/HDY+04.pdf 阅读 Naohiro Hayashibara 等 人 的 Phi 增 量 故障 检测 的 论 
文 o 


26. 容错 性 (fault tolerance) 


容错 性 是 指 一 个 系统 在 它 的 一 个 或 多 个 组 件 发 生 故 障 的 情况 下 ， 可 以 继续 提供 服务 的 能 力 。 容 
错 性 还 可 以 看 做 是 平滑 降 质 过 程 ， 也 就 是 说 ， 如 果 系 统 服务 性 能 在 故障 后 发 生 下 降 ， 也 只 会 和 
故障 组 件 相 关 。 

27. Gossip 

gossiper 人 负责 保障 集群 中 的 所 有 市 点 部 能 得 到 其 他 节点 的 重要 状态 信息 。gossiper 每 秒 运行 一 次 ， 
来 保证 即使 是 故障 或 没有 在 线 的 节点 也 能 第 一 时 间 收 到 节点 状态 信息 。 它 的 工作 被 设计 为 可 预 
测 的 ， 即 使 负载 迅速 增加 也 是 如 此 。 gossip? B 用 来 支持 节点 间 的 键 值 再 均衡 和 故障 检测 机 制 
。 TH, gossiptizé&3 AR ASFREEJ— NERKI 

gossiper 以 键 值 对 的 形式 传播 信息 ，gossip 协 议会 持续 给 其 他 节点 传播 状态 信息 ， 直 到 这 些 信 息 
被 新 信息 替代 。 

当 一 个 服务 节点 启动 后 ， 它 会 把 自己 注册 到 gossiper。 更 多 的 信息 可 以 查看 


org.apache. ME Su rs 类 。 


还 可 以 参考 这 篇 亚马逊 关于 gossip 的 论文 : 
http://www.cs.cornell.edu/home/rvr/papers/flowgossip.pdf ° 

28. Hector 

由 Outbrain 的 Ran Tavory 创 立 的 一 个 开源 项 目 ， 托 管 在 GitHub。Hector 是 一 i 用 Java 语 言 写 的 
Cassandra 客 户 端 。 它 封装 了 Thrift， 提 供 了 JMX、 连接 池 和 故障 恢复 功能 

29. 提示 移交 (hinted handoff) 

这 是 一 个 保证 可 用 性 、 容 错 性 和 平滑 降 质 的 机 制 。 如 果 一 个 写 请 求 到 达 Cassandra， 但 是 负责 这 
部 分 数据 的 节点 却 由 于 网 络 分 AC 硬件 故障 或 其 他 原因 而 不 可 用 ， 就 会 创建 一 个 消息 “提示 ”， 

并 交 给 “移交 ? 另 一 个 活着 的 节点 ， 并 请 它 在 不 可 用 节点 恢复 时 重新 进行 写 操作 。 这 有 两 个 好 
处 : 减少 了 一 个 节点 由 于 下 线 而 恢复 错过 的 信息 所 用 的 时 间 ， 并 在 弱 一 致 性 级 别 中 提高 了 写 性 
能 。 注 意 ， 提 示 移 交 在 ONE、QUORUM、ALL 这 些 一 致 性 级 别 看 来 并 不 当做 是 一 个 合格 的 写 操 
作 的 确认 。 但 在 一 致 性 级 别 ANY 中 ， 提 示 确 实 当 做 一 个 成 功 的 写 操作 。 换 名 话说， 提示 写 对 它 
们 上 自己 本 号 不 可 读 。 

接收 提 QE 六 将 会 在 节点 恢复 在 线 后 ， 通 过 gossip 很 快 获知 。 如 于 某 种 原因 ， 提 示 移 交 无 
法 进行 ， 系 统 还 可 以 进行 读 时 修复 。 


30. 键 值 (key) 


参考 行 键 值 。 


31. Keyspace 


keyspace 是 列 族 的 容器 ， 大 致 对 应 于 关系 模型 中 的 数据 库 ， 在 Cassandra 中 用 于 区 分 不 同 的 应 

用 。 关 系数 据 库 中 ， 数 据 库 是 表 的 集合 ， 而 keyspace 则 是 列 族 的 有 序 集合 。 可 以 在 Cassandra 的 
配置 文件 中 定义 keyspace， 或 用 API 的 定义 方法 来 定义 它们 。 当 定义 一 个 keyspace 时 ， 同时 还 要 
指定 副本 因子 和 副本 放置 策略 。 在 一 个 Cassandra 集 群 中 ， 可 以 有 一 个 或 多 个 keyspace， 典 型 情 
况 是 每 个 应 用 有 一 个 keyspace 。 

参见 列 族 。 

32. 字典 序 (lexicographic ordering) 

字典 序 是 两 个 有 序 笛 卡 儿 集 乘积 的 自然 (字母 排序 方 式 。 

33. Memtable 

新 近 写 入 数据 的 内 存 表 达 形 式 。 一 旦 memtable 写 满 ， 就 会 被 刷 写 到 硬盘 之 中 ， 成 为 一 个 SSTable 
34. Merkle 树 

Merkle 树 又 称 为 “ 哈 希 树 ”。 它 的 数据 结构 是 一 个 二 又 树 ， 对 于 表示 大 数据 集 的 简短 摘要 。 在 一 
个 哈 希 树 里 ， 叶 子 节点 是 要 进行 摘要 的 数据 块 (通常 是 文件 系统 中 的 文件 ) 。 树 中 的 每 个 父 节 
点 都 是 它 的 直接 子 节 ) 点 的 险 和 希 ， 这 可 以 紧密 压 紧 摘要 信息 


Cassandra 中 ，Merkle 树 由 org.apache.cassandra.utilsMerkleTree 类 实现 。 


ECassandra 中 , MerklefW 


于 加 密 和 验证 文件 和 数据 传输 的 内 容 ，Merkle 树 还 用 于 Google Wave 
于 其 发 明 者 Ralph Merkle 。 
35. Multiget 
通过 列 名 查询 一 组 键 值 。 
36. Multiget Slice 
查询 一 组 键 值 的 一 个 子 集 的 列 。 
37. 节点 (node) 
— ^r Cassandra S ffi] » 通常 一 个 Cassandra 集群 会 有 很 多 节点 ， 
节点 环 ， 或 者 直接 叫做 “ 环 *”。 市 mo UO 
特 指 拥有 其 他 节点 某 些 数 据 的 副本 的 节点 
38. Node tool 
这 是 指 可 执行 文件 bin/nodetool， 用 于 检测 集群 的 配置 是 否 合理 ， 


于 保证 对 等 网 络 中 节点 收 到 有 


Ei 
s 


DE 


产品 之 上 


有 时 ， 它 们 作为 一 个 
3f CassandrallR 45 28, 而 “副本 ” (replica) 则 


并 可 以 进行 其 他 


块 是 未 被 修改 和 破坏 的 。 它 们 还 


H o Merkle% 


整体 称 为 一 


种 维护 操 


作 。nodetool 的 命令 包括 cleanup `clearsnapshot ^ compact ~cfstats ^ 
decommission ^ drain 、 flush ^ info `loadbalance ^ move 、 repair ~、 ring ^ 
snapshot[snapshotname] ` removetoken 和 tpstats ° 


比如 ， 你 可 以 使 用 nodetool drain 来 阻止 commit log 接 收 新 的 写 操作 。 

39. NoSQL 

“NoSQL” 这 个 名 词 ， 用 来 描述 一 些 不 使 用 SQL 或 关系 模型 的 数据 库 。 有 了 时 解释 为 “Not Only 
SQL", Jette D 不 认为 关系 型 数据 库 是 个 坏 主意 ， 相 反 ， 只 是 它们 
不 是 唯一 的 数据 存储 的 选择 而 已 。 这 人 1 个 和 名词 是 Rackspace 的 Cassandra 记 随 者 Eric Evans 造 出 来 
BJ, 不过， 他 本 人 更 愿意 使 15—4 词 “Big Data” (海量 数据 ) 来 彰显 一 个 事实 ， UT 类 非 
关系 型 数据 库 并 非 是 因为 不 是 什么 (SQL 的 实现 ) 而 定义 的 ， 而 是 因为 它们 能 做 什么 〈 处 理 海 
量 数 据 负载 ) 而 定义 在 一 起 的 。 在 我 看 来 ， 这 个 名 词 已 经 差不多 到 了 它 命运 的 终点 了 ， 因 为 它 
过 于 容易 混淆 了 。 它 试图 把 各 种 有 不 尽 相同 的 目标 、 设 计 决 策 和 特性 的 数据 库 放 到 一 起 来 讨 
论 。 还 是 让 Cassandra 是 Cassandra、 让 CouchDB 是 CouchDB、 让 Riak 是 Riak 吧 。 

40. 有 序 分 区 器 (Order-Preserving Partitioner) 

这 是 一 类 按照 键 值 顺序 存放 行 的 分 区 器 ， 将 数据 物理 结构 按照 排序 方式 对 齐 。 将 列 族 配置 为 有 
序 分 区 器 允许 使 用 区 间 切 片 ， 这 样 Cassandra 就 可 以 知道 哪个 键 值 放 在 哪个 节点 上 。 

这 种 分 区 器 不 同 于 随机 分 区 器 ， 它 的 优点 是 可 以 提供 更 有 效率 的 区 间 查 询 ， 但 是 缺点 是 键 值 分 
布 不 均匀 

有 序 分 区 器 (OPP) Horg.apache.cassandra.dht.OrderPreservingPartitioner 
类 实现 e 

有 一 种 特殊 的 OPP 称 为 配 页 有 序 分 区 器 (COPP) 。 它 与 普通 OPP 非 常 类 似 ， 但 数据 信息 是 按照 
En/US 字 典 序 方式 排序 的 ， 而 不 是 字 节 序 。 因 此 ， EHF 区 域 设置 相关 的 应 用 可 能 有 / 


COPP 由 org.apache.cassandra.dht.CollatingorderPreservingPartitioner 类 


实现 。 

参考 令 牌 。 

41. 分 区 (partition) 

作为 一 个 通用 名 词 ， 分 区 指 网 络 分 裂 ， 是 将 一 个 网 络 分 断 ， 使 得 一 个 机 器 无 法 和 另 一 个 直接 通 
信 。 分 区 可 能 内 交换 机 、 路 由 器 或 是 网 口 的 故障 导致 。 考 虑 一 个 有 五 台 机 器 的 集群 { A, B, C, D, 
FE }， 其 中 {A, B} 在 一 个 子 网 上 ，{C, D, E} 在 另 一 个 子 网 上 。 如 果 连 接 两 个 子 网 的 交换 机 发 生 了 
故障 ， 那 么 就 发 生 了 一 个 网 络 分 区 ， 隔 离 出 了 两 个 子 集群 {A, B} 和 {C, D, E} ° 
Cassandra 是 一 个 具有 容错 性 的 数据 库 ， 网 络 分 区 也 是 一 种 考虑 在 内 的 故障 。 因 此 ， 即 使 发 生 了 
网 络 故障 ， 它 也 可 以 继续 服务 ， 并 当 分 区 故障 回复 后 合并 数据 。 


42. 分 区 器 (partitioner) 


分 区 器 控制 数据 在 节点 间 如 何 分 布 。 要 找到 一 组 数据 ，Cassandra 必 须知 道 哪个 节点 存储 着 要 查 
找 的 范围 的 值 。 有 三 种 分 区 器 : 随机 分 区 器 (这 是 默认 分 区 器 ) ， 有 序 分 区 器 和 配 页 有 序 分 区 


UE XAN: 


H 


WW o 你 可 以 在 storage-conf.xml 或 cassandra.yaml (对 于 0.7 版 本 ) 文件 中 


的 <Partitioner> 元 素 


<Partitioner>org. apache.cassandra.dht.RandomPartitioner</Partitioner> 


响 行 键 值 的 排序 。 


H 


o 注意 : 分 


Ei 
, 只 EVA 


区 器 的 选择 不 影响 列 的 排序 


一 旦 选择 了 分 区 器 的 类 型 ， 就 无 法 在 不 破坏 数据 的 情况 下 改变 分 区 器 (因为 SSTable 是 不 可 修 
改 的 ) 。 参 考 有 序 分 区 器 和 随机 分 区 器 。 


43. 选举 (quorum) 


多 数 世 点 响应 了 一 个 操作 。 这 是 一 个 可 选 的 一 致 性 级 别 。 在 选举 读 中 ， 代 理 世 点 会 等 待 大 多 数 
节点 给 出 相同 的 值 。 这 会 让 读 操作 慢 一 些 ， 但 会 保证 不 会 得 到 过 期 的 数据 。 


44. 机 架 感 知 策略 (Rack-Aware Strategy) 

参见 副本 放置 策略 。 

45. 随机 分 区 器 (random partitioner) 

随机 分 区 器 使 用 BigIntegerToken 存放 MD5 哈 希 值 ， 通 过 哈 希 值 来 决定 键 值 放 在 环 上 的 具体 
位 置 。 这 样 做 的 好 处 是 ， 可 以 让 键 值 很 均匀 地 分 布 到 集群 中 ， 不 足 在 于 区 间 查 询 的 效率 不 高 。 
它 是 默认 的 分 区 器 。 

见 分 区 器 和 有 序 分 区 器 。 

46. 区 间 切 片 (range slice) 

查询 一 个 键 值 区 间 的 列 的 子 集 。 

47. 读 时 修复 (read repair) 

这 也 是 一 种 保障 环 上 数据 一 致 性 的 机 制 。 在 读 操作 时 ， 如 果 Cassandra 发 现 某 些 节点 响应 的 数据 
和 其 他 节点 的 处 于 不 一 致 状态 ， 会 在 旧 节 点 上 进行 读 时 修复 操作 。 读 时 修复 意 c Cassandra 
对 那个 节点 上 的 旧 数 据 发 起 一 次 写 请 求 ， 使 用 之 前 读 请 求 得 到 的 最 新 数据 更 新 它 。 这 会 从 和 点 
上 取出 所 有 数据 进行 合并 ， 然 后 将 合并 的 数据 写 回 到 不 同步 的 节点 上 。 数 据 一 致 特 检查 是 通过 
比较 时 间 惟 以 及 校 验 和 进行 的 。 

进行 数据 修复 的 方法 来 自 org.apache.cassandra.streaming 包 。 

48. 副本 机 制 (replication) 

在 一 般 分 布 式 系统 中 ， 副 本 书 制 指 将 数 据 的 多 个 副本 保存 在 多 个 机 器 上 ， 这 样 如 果 有 机 器 
出 现 故 障 或 由 于 网 络 分 区 不 可 用 集群 中 仍然 " 可 用 数据 。 绥 存 是 一 个 简单 的 副本 机 制 的 形 
式 。 在 Cassandra 中 ， 副本 机 制 是 一 和 提供 高 性 能 、 可 用 性 与 容错 性 的 手段 。 

49. 副本 因子 (replication factor) 

Cassandra 提 供 了 一 个 可 配置 的 副本 因子 ， 人 允许 你 决定 希望 付出 多 少 性 能 来 获得 更 高 的 一 致 性 。 
也 就 是 说 ， 读 写 一 致 性 oo 子 ， 它 是 在 集群 中 拥有 的 数据 副本 的 数量 。 副 本 因 
子 可 以 通过 配置 文件 和 API 进 行 设置 
参见 一 致 性 级 别 。 

50. 副本 策略 (replication strategy) 


PIE EERTE EUA EE 决定 了 副本 的 分 布 方式 。 第 一 个 副本 总 会 放 在 拥有 对 应 这 块 键 
值 区 间 令 牌 的 节点 。 其 余 的 副本 依据 可 配置 的 副本 放置 策略 在 RERIT : 


P 


ye 


AW 


Cassandra 使 月 


的 策略 。 选 择 


活性 ， 你 可 以 


A 
m) 


点 需要 接收 写 操作 ， 


根 


副本 放置 策略 都 
tionStrategy 


适 的 策略 很 重要 ， 因 为 确定 了 盟 


据 


展 自 


6 章 进行 了 深入 的 讨论 。 


这 会 对 不 同 场景 
网 络 拓扑 和 需求 来 调整 策略 。 


由 象 类 。 如 果 你 愿意 扩展 这 个 
副本 放置 策略 是 keyspace 的 属性 ， 通 过 <ReplicaPlacementStrategy> 元 素 配置 。 


类 ， 


也 可 以 实现 


org.apache.cassandra.locator.AbstractReplica- 


自己 的 副本 放置 策略 。 


用 了 “四 人 帮 ” 的 策略 模式 ， 人 允许 可 置换 的 副本 放置 策略 。Cassandra 提 供 了 三 种 可 用 
个 节点 负责 什么 键 值 范 围 ， 也 就 决定 了 哪个 节 
率 有 重大 影响 。 不 同 的 可 置换 策略 提供 了 很 大 的 灵 


它们 在 第 


列 值 为 值 。 对 于 超级 列 族 ， 一 行 是 一 个 超级 


是 每 行 唯一 的 标识 ， 


51. 行 (row) 

在 列 族 中 ， 一 行 是 一 个 有 序 映射 ， 以 列 名 为 键 值 ， 

列 名 到 值 的 映射 ， 其 中 的 值 又 是 子 列 名 到 子 列 值 的 映射 。 行 键 值 
了 列 的 名 / 值 对 。 单 一 行 的 大 小 不 能 超过 磁盘 空间 的 限制 。 

行 通过 分 区 器 进行 排序 ， 分 区 器 的 可 能 类 型 包括 随机 分 区 器 、 有 
行 的 定义 位 于 org.apache.cassandra.db.Row 类 。 


参见 行 键 值 。 


52. 行 键 值 (row key) 


有 时 简称 为 “ 键 值 


E24 ER 


方法 ， 是 一 个 


TE 


在 Thrift 接 口 ! 


53. SEDA 


Cassandra 采 用 


，Java 各 
此 ， 可 能 需要 手 了 


Ii INE FR 


i 行 刍 值 类似 于 关系 模 


Pigh 


] 了 SEDA (分 阶段 习 


Wu 


IDEs 


争 和 缓存 不 命 
但 是 会 


aem 


立 的 事件 队列 。 
当 事 件 到 


达 进 


地 调整 线程 数量 。SEDA 的 优势 在 了 


你 可 以 通过 Matt Welsh、David Culler 和 Eric Brewer 的 位 于 
http://www.eecs.harvard.edu/~mdw/proj/seda 的 原 


参见 阶段 。 


中 


A 


PEZ 


A 


总 是 假设 行 键 什 


[将 ASCI 字 符 串 编 码 为 UTF-8 ° 


吐 能力 。SEDA 试 


型 中 一 个 对 象 的 3 


是 UTF-8 编 码 的 ， 但 


EH " ERE 了 标识 


AE 


ARATE A WIA mA 


每 行 包含 


序 分 区 器 和 配 页 有 序 分 区 器 。 


行 的 所 有 列 的 


F 非 如 


有 件 驱 动 架构 ，Staged Event-Driven Architecture) 来 在 高 并 发 的 


图 消除 线程 相关 的 过 度 开销 。 


这 些 开销 


是 由 


F 调 度 、 锁 竞 


AE 


生 更 好 的 性 外 


队列 ， 应 


提供 的 


。 因 此 ，Cassandra 中 的 和 
压 紧 都 是 作为 一 个 阶段 (SEDA 中 的 S) 来 进行 的 。 


54. 种 子 节点 (seed node) 


种 子 世 点 是 
新 加 入 的 节点 
可 以 有 多 个 种 


个 已 经 在 Cassandra 


ps 


EUIS] ° 2 —^f 


事件 管理 器 会 被 调用 
于 更 高 的 并 发 性 和 更 好 的 CPU、 磁 盘 


FE 务 并 不 会 始终 在 同一 个 线程 中 ， 


这 可 能 会 让 代码 更 复 


多 关键 工作 ， 比如 读 、 修 改 、 gossip、 
。 一 个 阶段 本 质 上 说 是 一 个 独 


o 控制 器 E 够 为 每 个 阶段 根据 需求 动态 
和 网 络 资源 的 管理 。 


文 来 了 解 更 多 关于 SEDA 的 信息 。 


集群 中 的 节点 ， 


Se 


TTE 


台 会 和 种 子 节点 进行 gossip 通 信 ， 


获取 状态 信息 


点 获取 数据 
， 了 解 节点 环 的 # 


开 


始 运行 。 


Gf. 集群 


中 


55. 切片 (slice) 


这 是 一 种 读 查 询 。 使 用 get_slice( ) 通过 


组 列 名 或 一 个 列 名 


ANLE 


get range slice() 返回 一 个 区 间 的 键 值 的 


56. Snitch 


Snitch 是 Cassandra 将 点 映射 到 
置 ， 以 便 发 现 和 保证 有 效 地 路 由 请 求 。 有 几 

(或 RackInferringSnitch ) 可 以 类 
架 。 这 个 策略 是 通过 它们 的 了 地 址 


对 位 置 的 。 


而 DataCcenterEndpointSnitch 允许 为 机 架 指定 IP 子 网 ， 


组 。 


架 和 数据 中 心 的 映射 。 


网 络 中 的 物理 


DJ 


集 列 9 


E ERUIT 


几 种 不 同类 型 
| 断 两 个 节点 是 


PropertyFileSnitch 允许 在 一 个 称 为 cassandra-rack.properties 的 属性 


区 间 进 行 查询 。 使 用 


。 它 帮助 判断 节点 相对 于 其 他 节点 的 位 
Snitch 。 比 如 ， EndpointSnitch 
否 在 同一 个 数据 中 心 或 是 否 在 同一 个 机 
的 第 二 和 第 三 个 字段 来 判断 两 个 节点 的 数据 中 心 或 机 架 的 相 


按照 机 架 所 属 的 数据 中 心 进行 分 


Snitch 策 略 类 位 于 org.apache.cassandra.locator 包 。 


57. Fai (sparse) 


在 关系 型 模型 中 ， 每 个 数据 
^NI, Cassandraf A — PURSE 


类 型 
这 的 或 “无 schema” 的 数据 模型 ， 


更 多 或 更 少 少 的 列 。 这 样 会 更 有 效率 。 比 如 一 个 1000 x 10008 


Ps, 


58. SSTable 


SSTable 是 Sorted String Table. (FFER) 的 缩 


存 中 的 数据 表 (memtable) 
写 并 可 以 被 压 紧 。 


SSTable 是 不 可 更 改 的 。 一 旦 


很 多 单元 格 是 空 值 ， 那 么 这 种 存储 方式 是 低 效 率 的 。 


=+ 


8 定 IP 地 址 到 机 


文件 ， 


表 ) 的 每 列 都 必须 有 值 ， 即 使 有 些 时 候 这 个 值 是 空 的 。 与 此 
这 意味 着 一 个 行 可 LERRA 
表格， 类 似 于 一 个 关系 型 的 表 。 如 


来 的 ，SSTable 是 Cassandra 中 数据 在 硬盘 上 


memtable 


E 
TH 


操作 仅仅 改变 它们 在 磁 强 上 


要 将 数据 导入 或 导出 JavaScript 对 象 标 ; 


个 概念 :是 从 Google 的 Bigtable 里 借鉴 过 
内 


a 这 是 一 个 只 人 允许 追加 写 的 日 志 格式 。 
据 缓冲 和 排序 的 。 SSTable ft F 高 性 能 地 


是 写 入 SSTable 之 前 ， 


| 57 $05 73. 
的 表现 形式 。 


记 (JSOM 


可 以 使 用 


于 数 


上 称 为 一 个 SSTable， 


就 无 法 应 用 更 改 了 ， 压 紧 


org.apache.cassandra.tools. SSTableImporter 类 和 SSTableExporter 类 。 


59. 阶段 (stage) 


作为 Cassandra 的 分 阶段 事件 驱动 架构 (SEDA) 的 一 部 分 ， 
一 个 单独 的 操作 可 以 流 经 多 个 阶段 ， 直 


一 个 阶段 包含 到 达 事 件 队 列 、 事 件 处 理 器 和 相关 联 的 线程 池 。 
定 了 调度 和 线程 的 分 配 ，Cassandra 使 用 线程 池 
java.util.concurrent.ExecutorService 实现 了 这 种 并 发 模型 。 
作 的 ， 可 以 看 org.apache.cassandra.concurrent .StageManager 类 。 


至 结束 ， 


MEZE 


阶段 是 一 个 工作 单位 的 一 个 包装 。 
E 同 一 个 线程 中 自始至终 。 


阶段 由 一 个 控制 器 所 管理 ， 它 决 
要 查看 阶段 是 如 何 工 


还 有 一 些 其 他 操作 也 作为 阶段 
StorageService 的 一 致 性 


一 个 操作 可 以 在 一 个 线程 中 开始 ， 之 后 将 


之 间 ， 而 是 在 阶段 之 间 进 行 的 。 


参见 SEDA 。 


D 


工作 移交 给 另 一 个 线程 。 这 个 移交 并 不 是 直接 在 线程 


60. 强 一 致 性 (strong consistency) 


61. 超级 列 column) 


实现 了 ， 包 括 处 理 memtable 的 ColumnFamilyStore 25, jil 
理 器 。 


对 于 读 操 作 ， 强 一 致 性 意味 着 如 果 发 现 需要 进行 读 时 修复 ， 首 移 进行 读 时 修复 ， 然 后 返回 结 
果 。 


超级 列 的 值 不 是 
列 ZHPESECHE 


超级 列 是 非 递归 的 ， 


放 超 级 列 的 映射 。 


超级 列 在 SuperColumn.java 中 定义 ， 这 个 
口 。 这 些 接口 允许 进行 的 操作 包括 : 取出 
检查 超级 列 中 子 列 的 数量 ， 


超级 列 是 Facebook 对 Google 的 Bigtable 的 数据 模型 的 一 个 改进 。 


子 列 ， 删 除 子 列 ， 


参见 列 族 。 
62. Thrift 


串 ， 而 是 一 组 有 名 字 


的 其 他 列 的 列表 ， 这 里 称 作 子 列 。 子 列 也 是 有 序 的 ， 


也 就 是 说 ， 它 们 


超级 列 和 一 般 列 的 不 同 还 在 于 它们 没有 关联 的 时 间 戳 。 
有 一 级 深度 。 超 级 列 只 能 存放 其 他 列 的 映射 ， 而 不 能 存 


类 实现 了 IColumn füIColumn-Container 两 个 接 


超级 列 中 的 所 有 子 列 ， 通 过 名 字 取 出 一 个 子 列 ， 增 加 


级 检查 子 列 的 最 新 修改 时 间 。 


Thrift 是 用 于 与 Cassandra 通 信 的 RPC 客 户 端的 名 字 。 它 可 以 静态 生成 一 个 接口 ， 用 于 不 同 语言 的 
序列 化 ， 包 括 C++、Java、Python、PHP、 Ruby、 Friang > Perl ` Haskell ` C£ ` Cocoa ` Smalltalk 


fliOCaml » EEA AALE fo 
Thrift 由 Facebook 于 2007 年 4 月 实现 ， 


Ff HE: 


F 意 上 述 客户 端 语言 来 与 Cassandra 交 互 。 


并 在 2008 年 5 月 作为 一 个 孵化 器 项 目 捐 给 了 Apache。 截 止 到 


本 书写 作 时 ，Thrift 很 可 能 会 被 更 新 更 j 活跃 的 Apache 项 目 Avro 所 取代 。Avro 的 另 一 个 优点 是 


要 静态 代码 生成 。 


你 可 以 在 该 项 目 主页 了 解 Thrift 的 更 多 信息 : 


63. Ej] (timestamp) 
Cassandra 中 ， 列 值 的 时 间 惟 是 由 客户 端 提 供 的 ， 所 以 客户 端的 时 钟 同步 很 重要 。 时 间 惟 从 传统 


上 说 是 从 Unix 纪 元 


64. ÇH (token) 


始 时 (1970 年 1 月 


http://incubator.apache.org/thrift 。 


0 点 


环 上 的 每 个 节点 都 有 一 个 单独 的 令 牌 用- 


令 牌 值 ， 你 可 以 指定 
定 。 


) 算 起 的 毫秒 值 。 


于 标明 其 所 拥有 的 键 值 范围 。 根 据 环 上 前 一 个 节点 的 
定 上 自己 的 令 牌 或 让 Cassandra 生 成 一 个 。 令 牌 的 表示 形式 由 4 分 区 器 的 类 型 决 


对 于 随机 分 区 器 ， 


org.apache.cassandra.dht.StringToken 类 。 


Cassandra 中 的 令 牌 都 派生 自 


65. 墓碑 (tombstone) 


m ud nh 


已 经 被 删除 ， 但 还 没 被 清空 


墓碑 会 在 主 压 紧 时 被 清理 掉 。 
66. 向 量 时 钟 (vector clock) 


问 量 时 钟 让 分 布 式 系统 的 事件 


组 ， 每 个 对 应 一 个 进程 ， 


每 人 


逻辑 状态 中 ， 一 个 进程 会 把 它 


性 ， 通 常 要 遵从 下 列 步 又 的 某 些 形式 。 
所 有 时 钟 都 从 0 开始 。 每 当 有 


可 以 成 为 部 分 因果 有 序 的 。 疝 量 
个 进程 包含 、 个 时 钟 的 本 地 副本 


刻 删 除数 据 。 相 反 ， 它 将 数据 标 ; 
。 之 后 ， 幕 牧 可 以 传播 到 其 他 副本 之 上 。 


org.apache.cassandra.dht.Token 类。 


记 为 


时 钟 保存 了 


MER, K 


令 牌 是 一 个 在 0~212 的 证 书 ， 通 过 对 键 值 进行 MD5 哈 希 而 得 。 这 个 令 牌 位 于 
org.apache.cassandra.dht.BigIntegerToken 类 。 


对 于 有 序 分 区 器 ， 令 牌 是 一 个 基于 键 值 的 UTF-8 字 符 串 ， 位 3 


示 数 据 


一 个 逻辑 时 钟 的 数 


为 了 保存 所 


IT 


有 进程 在 一 个 


一 致 的 


AM 


的 时 钟 发 送 给 其 他 进程 ， 然 后 后 


发 送 一 条 消息 ， 也 被 看 做 是 一 个 事件 ， 也 会 让 时 钟 加 一 ， 然 后 


部 线程 。 每 次 


个 进程 接收 一 条 消息 ， 也 会 记 为 一 个 对 
比较 它 的 向 量 和 从 外 部 进程 进入 的 消 


一 个 向 量 时 钟 时 间 同 步 策略 有 可 能 


67. 弱 一 致 性 (weak consistency) 
对 于 读 操作 ， 弱 一 致 性 通过 首先 返回 结果 ， 然 后 再 进行 必要 的 读 时 修复 ， 从 而 提升 了 性 能 


关于 作者 


Cassandra ^ SOA ` RESTU K3 


关于 封面 


(Cassandra dH ES) SALES HAUT S 9 ZETEJÉH ^ EH 


项 目的 一 位 文档 贡献 者 ， 同时 也 是 多 本 技术 书籍 的 作者 ， 
版 ，。 他 是 O’Reilly 的 97 Things Every Software Architect Should Know 的 合 著 者 之 一 ， 也 
件 书 籍 的 技术 审阅 者 。Eben 已 经 在 开业 中 闽 荡 了 12 年 了 ， 设 计 并 实现 过 
布 式 系统 ， 涉 及 零售 业 、 旅 游 、 政 府 和 互联 网 接 入 商 


个 线程 经 历 了 一 个 事件 ， 它 的 时 


B 》 
息 的 向 量 。 它 会 使 用 比较 ! 


会 在 Cassandra 的 未 来 版 本 中 3 引入。 


g. 


会 进行 


WE o 7g f DRY 


FE 一 致 


钟 就 会 加 


人 行当 一 个: 
? SE - 
Lu 


会 为 目 


送 给 外 


| 来 的 最 大 


AUD: 


包括 


丰 件 驱动 架构 等 方面 的 业界 会 议 中 
受过 领先 的 业内 相关 网 站 的 多 次 访谈 。 你 可 以 在 Twitter 上 关 沪 


布 最 为 广泛 的 一 种 王 人 和 


上 科 的 


S 从 散 哈 拉 以 南 的 非洲 大陆 


H 


受 邀 进行 
EEben, {tý 


(ES 


/ 


多 


“ 科 的 一 种 食 虫 乌 类 o 
I 东南 亚 ， 


ARREK 


Eben Hewitt 是 一 家 跨国 公司 的 应 用 架构 总 监 ， 负 责 系统 战略 和 设计 工作 。 他 是 Apache Cassandra 
其 


人 进程 准备 
将 整个 向 量 与 消息 一 起 发 

己 的 时 钟 加 一 。 然 后 
直 更 新 自己 的 时 钟 。 


£Java SOA Cbook (O’Reilly 出 


Bi 


是 多 本 软 


个 领域 中 的 大 规模 分 
在 亚洲 和 美国 的 多 个 关于 
讲演 ， 并 就 上 述 话题 接 
J 账号 是 @ebenhewitt ° 


它们 是 分 


ERES 


上 都 有 分 布 。 大 多 数 绥 带 乌 是 留 乌 ， 而 包括 日 本 绥 带 乌 和 弧 锦 在 内 的 其 他 绥 带 


S 

Bj 

大 多 数 绥 带 乌 是 雌雄 二 态 的 ， 也 就 是 说 雌 乌 和 雄 乌 的 外 观 有 较 大 差别 。 多 数 雌 绥 融 乌 没有 雄 乌 
M Id un ci i E EE 
雄性 亚洲 绥 带 乌 的 尾羽 长 度 能 达到 大 约 15 英 寸 。 肉 性 绥 带 乌 据 信 会 根据 尾羽 的 长 度 选择 配偶 。 
绥 带 乌 是 一 夫 一 麦 制 的 ， 这 让 它们 的 潭 亮 的 颜色 和 鸡毛 显得 有 点 不 同 寻常 因为 通常 这 种 强烈 
的 性 征 展 示 都 发 生 在 那些 非 一 夫 一 妻 制 的 物种 身上 。 


绥 带 乌 的 分 布 非常 广泛 ， 栖 妃 地 包括 热带 草原 、 和 竹林、 雨林、 落叶 林 乃 至 种 植 园 。 大 多 数组 间 
鸟 都 依靠 它们 敏捷 的 反应 和 敏锐 的 视力 在 飞行 中 捕食 。 
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